AI 算法已趋同? 亿分之一的人脸识别辨识度意味着什么?

在美国学习工作了十年之后, 2012 年的朱珑回国创立依图, 也成为这一代 AI 创业的典型代表. 他的履历上来看有几段重要的经历, 第一段是在 UCLA 的博士时期做统计建模和统计学计算, 师从艾伦. 尤尔, 艾伦的博士导师正是著名的理论物理学家霍金; 然后在 MIT 的 AI Lab 做计算机视觉建模相关领域的博士后研究员; 最后一段则是回国前, 在深度学习爆发之前的 NYU 的 Yann Lecun 实验室做研究员.

在 2012 年之前, 很少有人会说自己是做 AI 的, 只会说做统计建模, 统计学习这些具体的方向. 但从 2016 年 AlphaGo 登上自然杂志, 到美国著名的经济学人杂志多期报道, AI 频繁登上世界最著名的杂志成为封面主题, 如今已经进入了一个言必称 AI 的时代. 与 AI 相关的各种言论, 关于机器学习, 图像识别, 无人车, 健康医药等等都逐步成为热点. 而朱珑一直关注的是未来到底 AI 能发生一些什么?

没有权威的时代让 AI 正变得真假难辨

在朱珑的演讲中, 他提到目前 AI 跟过去比较重大的区别: 因为 AI 发展太快, 现在技术处于一个很难辨别真假, 好坏的时代. 以深度学习为代表新的 AI 技术, 因为过去参与的人和实践不多, 全球性研究的大规模以及长时间的积累并不够. 因为太 "热", 使得各方都热衷参与到 AI 的讨论, 交流甚至宣传当中, AI 的观点就变得非常多, 这客观上使得很多专家真正有见地的意见和其他的言论很难区分开来, 这不仅是中国, 在美国也是同样.

另外一个则是: 技术到了一个没有权威的时代. 过去不管是从计算机视觉, 还是整个人工智能领域, 最好的实验室几乎能够垄断预测全球百分之七八十的进展, 但是现在 AI 无论是在美国, 还是在中国或欧洲, 大家的发展是比较跳跃性的, 在一两个实验室非常难预测主流到底在关注什么. 这是整个时代的特点.

朱珑的背景是跨越学术界和工业界的创业典型, 经历了中国 2012 年到 2018 年这五, 六年非常特殊的阶段, 正如他在演讲中提到的, 过去中国没有成熟的科技创业的情景和市场机制. 过去, 政府, 投资者, 媒体这三者可以频繁交流, 在 2012 年之前, 学术界不像今天这样经常会被政府或一流基金邀请交流. 美国则因为市场成熟, 这些人经常会在一起交流, 甚至都是朋友. 中国这几年开始, 各种背景的人在一起交流的越来越多, 这是新的形态.

技术突破打开了工业界应用的突破

技术上, 2015 年, 机器识别人脸的水平正式超过人类. 人脸识别中机器比人强, 最简单基础应用就是 1:1 的比对, 证明你就是你, 大家熟知的是 2017 年 iPhone 推出的刷脸开机; 其次是 1:N, 是通过任一设备里捕捉到的人脸, 从一个省 (亿级) 或一个国家的人像库 (十亿级) 里来回答你是谁, 这对识别性能的要求提升了一个量级, 是千倍万倍地增长. 这意味着识别技术的突破, 打开了工业界中的产品的突破.

2012 年之前, 可以认为人脸识别技术几乎没有什么发展, 2017 年人脸识别最高水平可识别规模在 20 亿人, 大概比 2016 年可识别千万提高两百倍, 比 2015 年提高了数万倍. 那未来的发展到底是什么样? 会不会再 10 倍, 100 倍甚至万倍地发展?

大家现在也有个讨论, 技术是不是发展到了瓶颈? 各项算法之间有没有区别? 随着 AI 热潮的涌现, 各家 AI 公司都会频繁参加一些业界的比赛以证明自己的算法实力, 以人脸识别算法为例, 可以看到各 AI 公司在 LFW 等类似的计算机视觉比赛中都取得 99.xx% 的成绩. 于是人们会问: AI 算法是否已经趋同了? 如果算法精度差别不大(只有几个百分点), 是否意味着创业公司的技术已经同质化了, 没有技术创业的核心竞争力了呢?

但实际上, 这是典型的认知误区. 我们在朱珑的演讲中看到了一张表, 可能更准确的回答了这个问题, 这是中国某省 1 亿人像库的情况下, 真实的刑侦案件的破案环境的性能测试对比的表, 参与方是知名的几大人脸识别公司:

我们可以这样理解这张图: 必须对应场景来谈算法精度. 不同场景的算法精度不具备任何可比性, 甚至不代表有相关性. 换句话说在简单场景下算法精度高, 不代表在复杂的高难度场景下有更大的概率可以把算法精度做高, 就比如在小学生的考试中拿满分, 不见得可以在大学的考试中也拿满分. 因为很多学术界的比赛使用的都是公开数据集, 数据集内多是互联网照片, 类似于难度小的开卷考试, 大家很容易把测试成绩刷到比较高. 但在实际的应用中则会遇到各种高难度场景, 包括变形, 昏暗, 逆光, 强光, 光照不均, 低清, 运动模糊, 遮挡, 跨年龄段比对等, 在这种情况下各家的差距迅速拉开了, 第二名和第一名的错误率都会相差几倍以上, 远未到趋同的程度.

第二, 这些实战中的技术差距体现在具体产品或应用上, 不是简单的好用和一般好用的差距, 而是可用和不可用的差距. 实战中是要以最高效率解决实际问题为目的的. 在一个 1 亿级别人像系统中进行 1:N 的静态比对时, 错误率相差几倍, 就导致使用者做事效率下降几倍, 那么自然而然, 即使他使用的是一个多算法平台, 他也只会倾向于使用第一名的算法.

AI 帮助探索人类智慧的边界

AI 除了在产业界的实际应用外, 更能够帮助我们理解人类的智慧, 人类智慧的边界.

我们以前是没办法了解人类自己识别能力的规模和精度, 到底是什么程度? 过去没法做这个科学实验, 1 万人还是 10 万人你辨别不出来. 而机器在大规模的情况下, 很轻易地识别 1 亿人, 10 亿人, 甚至更多的时候, 机器识别就相当于提供了一把尺子, 根据相似度比例筛选出来给人去测, 可以在有效的时间里面, 测出一个人自己 "看" 这个世界的能力.

这是人类第一次有一个非常稳定且强大的机器, 有识别能力看到人和机器智能差别到什么程度. 依图曾做过一个实验, 在几千万量级的身份数据库上, 一个人把他女朋友生活照输入进去, 在机器输出相似度前十的照片中, 他是非常难辨别哪张是他的女朋友. 过去机器认识生人的能力比人强, 但是今天机器识别熟人脸的能力也超越人了.

今天机器是有了高性能的, 比人类大很多倍的这种识别能力, 能够帮助我们回答这些更有趣的问题: 在 13 亿中国人中有多少人跟你长的一模一样? 一模一样我们可以先定义为自己的妈妈辨别不出来谁是谁. 经过依图的实验, 结果是, 每 1 亿人当中有一个人跟你长的一样, 所以全中国差不多 12 个人跟你长的一模一样的.

这个意味着什么? 1 亿人当中有一个人跟你长的像, 这又意味着什么?

人类进化过程中, 视觉识别能力在各大感官中的比重越来越大, 也可能是人类穿衣服, 嗅觉识别家庭成员的能力在哺乳动物中比较低下, 主要是看人脸来辨别同类. 选择压力驱使人类的脸之间的区分度需要尽量的大, 这样保证家庭成员的稳定性得到保障.

而人作为社群动物, 需要和大量同类打交道, 脸部识别错误的代价是失去整个基因组的遗传继承. 对应的编码人脸形状的基因数量需要很大, 目前知道有一条染色体的一大块用于编码脸部特征. 一亿分之一的识别度是一个具有巨大社会学意义的统计数值, 背后更多的生物学意义需要更近一步探讨. 与之对应的一个未经实验证实的观察是, 动物的脸部特征区分度不像人类这么大. 比如猫和狗, 光看脸, 我们很不容易区分出来.

脸部信息对于身份的确认是非常重要的, 人类如果不具备辨别能力, 出门回来之后你认不出你的小孩, 老婆, 就会出现社会的骚乱, 所以说人脸识别对基因的进化有非常巨大的影响.

---------------

1950 年图灵发表计算机器与智能, 提出著名的 "图灵测试", 成为人工智能的思想起源, 而在 2018 年的图灵大会中, 依图朱珑博士的演讲也给我们打开了认知人工智能现状和未来的一扇窗户, 在嘈杂的言论中给我们更多的启发和思考. 期待听到更多这样的演讲.

来源: https://yq.aliyun.com/articles/594391

与本文相关文章

暂无,快来抢沙发吧！