我实在对这个难题感到很困惑。它让我每天都处于六神无主的状态,好像我就是无法找到将它解决掉的可靠办法。不,我所谈论的与其说是关于世界政治或现任美国总统,倒不如说是关于和人类休戚相关的事,更具体地说,就是关于我们身为工程师和研究人员该如何生存和工作。我说的是关于…深度学习的难题。
虽然你可能会发现我的以上描述相当夸夸其谈,言过其词,但深度学习确实给我们提出了几个必须解决的关键问题。在以下的段落中,我希望给大家曝光源于此领域的出现才滋生出的一个关键的对抗,该对抗又与图像处理领域的研究人员紧密相连。
首先,只需深度学习的寥寥数语就能让我们正确看待这场讨论。人们获悉神经网络的存在已有几十年了,由此一套放之四海而皆准的学习技巧也应运而生,该技巧原则上可以适用于人们去学习所有的数据源。在其前馈结构里,多层感知器——也被称为神经元——首先运行输入量的加权平均,其次是非线性,如S状曲线或纠正线性曲线。人们可以修整这个超级简单的系统,用其将既定的输入量调整到其所需的输出量,并服务于各种监督回归和分类问题。
所有这一切听起来都很好,但不幸的是,这一理念在20世纪80年代和90年代并没有获得普及——只因它没能表现出十足的竞争力。此外,对学习任务采用支持向量机的应运而生,伴随着坚实的理论基础和凸优化配方,该理念更是被宣告大势已去。最终,神经网络进入了漫长的蛰伏期。只有几位坚持不懈的研究人员——Yann LeCun(纽约大学和脸谱网),Geoffrey Hinton(多伦多大学)、Yoshua Bengio(蒙特利尔大学),和 Jürgen Schmidhuber(从事人工智能研究的Dalle Molle学院——仍停留在这个舞台上,坚持试图说服大家说这个看似注定无可救药的方法一定能够起死回生。好几个重要的体系结构构建成功,如卷积码和冗长的的短期记忆网络,都和他们的努力是分不开的,但它们的适用范围仍很有限。接着神经网络又突然卷土重来,而且来势汹涌。
在2000年代初发表的一系列论文都建议这种结构应被成功应用起来,势必造就对差不多所有指派的任务都能出色完成的效果。要做出这些贡献所需掌握关键方面包括:一层层诸多网络的使用,这也更好地说明什么叫“深度学习,“ 即深度学习是用来修整大量数据库的;大量的计算通常运行在计算机集群或图形处理单元里;明智的优化算法,即采用有效的初始化和渐进的随机梯度学习法。不幸的是,要取得所有这些伟大的经验成果,却几乎没有任何在理论上可以理解的基本范本可以用来照葫芦画瓢。此外,在学习过程中所采用的优化又是从理论上看来高度非凸的和棘手的。
此应用程序的尝试始于书面数字识别(见图1),然后慢慢地,小心翼翼地转向更具挑战性的视觉和语音识别和自然语言处理任务,并从那里人们几乎可以投入几乎所有的监督学习任务。谷歌、脸谱网和微软等公司很快就意识到了这一领域的潜力,它们都已经投入了大量的人力和预算,以便掌握这些工具并在他们的产品中将其加以利用。在学术前沿,有关信号处理,图像处理和计算机视觉的各项会议已成为深度学习的园地,这也有助于这个工作行当逐渐占据主导地位。
图1:
来源: http://www.36dsj.com/archives/93408