深度学习 大数据 算法 人工智能 图像识别
摘要: 中国科学院院士张钹对国内外人工智能产业发展现状, 提出我国仅靠跟随性的应用深度学习发展人工智能, 是无法引领这项技术实现革命性突破的. 语音也在里面学, 文字也在里面学, 图像也在里面学, 会不会互相干扰呢? 其实不仅不会互相干扰, 在一定程度上还略微有帮助.
中国科学院院士张钹对国内外人工智能产业发展现状, 提出我国仅靠跟随性的应用深度学习发展人工智能, 是无法引领这项技术实现革命性突破的. 语音也在里面学, 文字也在里面学, 图像也在里面学, 会不会互相干扰呢? 其实不仅不会互相干扰, 在一定程度上还略微有帮助. 北美已在引领这些发展, 如果中国只低头用深度学习去解决应用问题, 不去研究一个目的背后需要解决的问题, 要做到 "引领" 则是不可能的.
为什么机器下围棋能超过人类; 为什么在图像识别的某些方面会超过人类, 成功的因素是什么? 我认为有三大法宝: 数据, 计算资源和算法. 这就是深度学习成功的三大法宝. 大家对于前两个方面比较注意, 有体会, 很多人还没有体会到算法的重要性.
在这里主要是谈人工智能和大数据的关系, 以及中国在人工智能领域如何赶上和超过世界的先进水平.
深度学习有三大法宝
首先认识一下基于大数据的深度学习. 深度学习的提出, 在人工智能领域中是一个重大突破. 以往, 人工智能只能用来解决人们对它非常了解, 而且能够清楚地将它表达出来的问题. 但深度学习拓展了人工智能所能解决问题的边界.
其次, 深度学习具有一定的通用性. 比如, 人们用深度学习做图像识别, 不一定要具备非常丰富, 专业的图像知识. 即使你不是这个领域的专家, 也能把深度学习应用到这个领域. 所以, 深度学习是一种大众化的工具, 它把解决问题的领域大大延展了. 对大众而言, 这些奇迹引发人们认识到了深度学习的威力. 就是在图像识别领域, 在某一个图像库里, 机器识别准确度略微超过人类, 或者机器的误识率低于人类, 微软做的工作, 百度在语音识别上的工作, 识别错误率略低于人类, 在两个领域的识别上机器都超过了人类.
现在要分析两个问题:
第一, 大家都希望把深度学习的方法用到其他领域可能会产生新的奇迹, 这些奇迹会不会发生, 在什么样的情况下会发生;
第二, 如何推动深度学习继续向前发展.
这些奇迹来自何处? 为什么机器下围棋能超过人类, 为什么在图像识别的某些方面会超过人类, 成功的因素是什么? 我认为有三大法宝: 数据, 计算资源和算法. 这就是深度学习成功的三大法宝. 大家对于前两个方面比较注意, 有体会, 很多人还没有体会到算法的重要性. 我用阿尔法棋作为例子, 具体谈谈它怎么来使用这三个法宝.
阿尔法棋用了两个多星期的时间, 学了七千万局棋局. 机器还自己跟自己下, 跟李世石下之前也下了千万局的棋局. 也就是说比所有的棋手多下了几千万局的棋, 最后的结果是 4 比 1 战胜李世石. 最好的棋手一生中所下的棋局是百万级, 而阿尔法棋下过的棋局是几十亿级的, 这两项数据非常不对称, 人类绝对会输. 这里可以看到数据的力量和计算资源的力量, 大家没有看到背后算法的力量. 但阿尔法棋能够在两三周里学到几千万个棋局, 靠的是什么, 其实是靠学习算法, 它自己跟自己下棋, 靠的是什么, 靠的是强化学习算法, 没有这些, 它是做不到的.
人工智能目前做不到举一反三
是不是所有问题, 只要有数据, 就能够做到这么好呢? 不是! 这要受四个条件限制:
首先是需要有大量的数据, 第二是完全信息, 第三是确定性, 第四是单领域和单任务. 只有这四个限定条件达成后才有可能做到刚才说的, 达到或者超过人类的水平. 有很多问题 (同时) 符合这些条件, 比如说医疗数据, 可以做大数据处理, 像某些疾病的医疗诊断, 医疗图像的识别, 医学图像识别等等, 只要 (问题领域) 符合这四个条件, 都可以做, 而且经过努力, 依靠那三大法宝是可以达到或者超过人类的水平. 但是, 大量的工作并不符合以上四个条件, 不符合中间一条两条或者四条都不符合, 如果一旦不符合这四个条件中的任何一个, 现在的人工智能技术就有困难.
对此, 大家以往一直感到困惑, 语音也在里面学, 文字也在里面学, 图像也在里面学, 会不会互相干扰呢, 过去我们怕装不同东西的时候它会乱了, 会互相干扰, 其实不仅不会互相干扰, 在一定程度上还略微有帮助. 北美已在引领这些发展, 如果中国只低头用深度学习去解决应用问题, 不去研究一个目的背后需要解决的问题, 要达到引领是不可能的.
深度学习也不是完美的. 很多人以为用深度学习去做产业或者应用不会有问题, 但是这里要强调, 深度学习有大量的隐患, 这些隐患在很多应用场合下是绝对不允许的. 首先, 它需要大量的样本, 有些问题很难获取很多样本, 比如特殊疾病, 罕见疾病, 根本没有那么多样本. 最重要的是, 不可理解性, 现在看到深度学习建立的系统, 实际上跟人的思路很不一样. 因此, 说机器识别能力超过了人, 这只是在非常特定的环境下说, 其实很多方面它不如人. 比如它识别率比人高, 只是说它区别马和牛的能力比人高, 就是在一定的数据库下它识别能力比人高, 但是它根本上不认识马和牛. 将来如果做一个人机决策系统, 机器做出来的决策, 人都不知道它怎么做出来的, 那怎么用呢, 谁敢用呢
机器和人如何相互理解
现在实际要解决的问题就是人和机器能够合作的问题. 大家都在强调, 今后的方向肯定是人和机器合作, 要各展所长, 这里面有一个问题就是机器如何理解人, 人如何理解机器. 过去的重点是放在机器如何理解人上面, 比如说人类的语音命令, 用自然语言发的命令它能够听懂, 这是所谓自然语言对话. 这其实忽视了一个非常重要的另外一个点, 就是人如何理解机器, 这是由深度学习引起的, 因为深度学习出来以后, 它做出来的事情人非常不理解, 这就给人机共同合作带来了巨大的困难, 所以现在很多的重点除了做自然语言理解, 理解用户的意图等等这些工作外, 还要集中在人如何理解机器这方面.
为什么会发生这种情况, 为什么机器的思路跟人不一样, 因为机器处理的方式要用专业的语言. 机器怎么识别猫呢? 它只是从一些局部的特征, 局部的纹理来识别它, 它根本不是从猫的整体来识别, 因为机器要取得整体的特性是非常困难的, 它只取得局部的特性, 所以它都是在利用局部特性, 在一个特征空间里去认识猫, 跟人认识猫的角度完全不一样, 人认识猫是从所谓语义空间里, 是通过它的各种各样的属性来识别它.
目前, 这些研究不仅只是大学或者科研机构的事情了, 企业也都在纷纷参与. 我有个团队也是围绕上面的问题, 重点是如何突破将来人工智能要解决的基础和关键问题, 而不仅只是低头跟随性地应用深度学习, 只有从这点上着手, 我们才有可能实现在人工智能领域追赶, 超过或引领的目标.
来源: https://yq.aliyun.com/articles/408940