当前位置：

首页
/
IT
/
程序
/
【2018 展望 Top10】GAN 应用落地，NLP 急需突破

【2018 展望 Top10】GAN 应用落地，NLP 急需突破

人工智能最近三年发展如火如荼，学术界、工业界、投资界各方一起发力，硬件、算法与数据共同发展，不仅仅是大型互联网公司，包括大量创业公司以及传统行业的公司都开始涉足人工智能。

2017 年人工智能行业延续了 2016 年蓬勃发展的势头，那么在过去的一年里 AI 行业从技术发展角度有哪些重要进展？未来又有哪些发展趋势？本文从大家比较关注的若干领域作为代表，来归纳 AI 领域一些方向的重要技术进展。

从 AlphaGo Zero 到 Alpha Zero：迈向通用人工智能的关键一步

DeepMind 携深度增强学习利器总是能够给人带来震撼性的技术创新，2016 年横空出世的 AlphaGo 彻底粉碎了普遍存在的 "围棋领域机器无法战败人类最强手" 的执念，但是毕竟李世石还是赢了一局，不少人对于人类翻盘大逆转还是抱有希望，紧接着 Master 通过 60 连胜诸多顶尖围棋高手彻底浇灭了这种期待。

2017 年 AlphaGo Zero 作为 AlphaGo 二代做了进一步的技术升级，把 AlphaGo 一代虐得体无完肤，这时候人类已经没有资格上场对局了。2017 年底 AlphaGo 的棋类游戏通用版本 Alpha Zero 问世，不仅仅围棋，对于国际象棋、日本将棋等其他棋类游戏，Alpha Zero 也以压倒性优势战胜包括 AlphaGo Zero 在内的目前最强的 AI 程序。

AlphaGo Zero 从技术手段上和 AlphaGo 相比并未有本质上的改进，主体仍然是 MCST 蒙特卡洛搜索树加神经网络的结构以及深度增强学习训练方法，但是技术实现上简单优雅很多（参考图 1）。

主要的改动包含两处：一处是将 AlphaGo 的两个预测网络（策略网络和价值网络）合并成一个网络，但是同时产生两类所需的输出；第二处是网络结构从 CNN 结构升级为 ResNet。

虽说如此，AlphaGo Zero 给人带来的触动和启发丝毫不比 AlphaGo 少，主要原因是 AlphaGo Zero 完全放弃了从人类棋局来进行下棋经验的学习，直接从一张白纸开始通过自我对弈的方式进行学习，并仅仅通过三天的自我学习便获得了远超人类千年积累的围棋经验。

这引发了一个之前一般人很期待但是同时又认为很难完成的问题：机器能够不依赖有监督方式的训练数据或者极少的训练数据自我进化与学习吗？如果真的能够做到这一点，那么是否意味着机器会快速进化并淘汰人类？

第二个问题甚至会引起部分人的恐慌。但是其实这个问题本身问的就有问题，因为它做了一个错误的假设：AlphaGo Zero 是不需要训练数据的。首先，AlphaGo Zero 确实做到了通过自我对弈的方式进行学习，但是仍然需要大量训练数据，无非这些训练数据是通过自我对弈来产生的。

而且更根本的一点是应该意识到：对于 AlphaGo Zero 来说，其本质其实还是 MCST 蒙特卡洛树搜索。围棋之所以看着难度大难以克服，主要是搜索空间实在太大，单纯靠暴力搜索完全不可行。如果我们假设现在有个机器无限强大，能够快速遍历所有搜索空间，那么其实单纯使用 MCST 树搜索，不依靠机器学习，机器也能达到完美的博弈状态

AlphaGo Zero 通过自我对弈以及深度增强学习主要达到了能够更好地评估棋盘状态和落子质量，优先选择走那些赢面大的博弈路径，这样能够舍弃大量的劣质路径，从而极大减少了需要搜索的空间，自我进化主要体现在评估棋面状态越来越准。

而之所以能够通过自我对弈产生大量训练数据，是因为下棋是个规则定义很清晰的任务，到了一定状态就能够赢或者输，无非这种最终的赢或者输来得晚一些，不是每一步落子就能看到的，现实生活中的任务是很难达到这一点的，这是为何很多任务仍然需要人类提供大量训练数据的原因。如果从这个角度考虑，就不会错误地产生以上的疑虑。

Alpha Zero 相对 AlphaGo Zero 则更进一步，将只能让机器下围棋拓展到能够进行规则定义清晰的更多棋类问题，使得这种技术往通用人工智能的路上迈出了重要一步。

其技术手段和 AlphaGo Zero 基本是相同的，只是去除掉所有跟围棋有关的一些处理措施和技术手段，只告诉机器游戏规则是什么，然后使用 MCST 树搜索 + 深度神经网络并结合深度增强学习自我对弈的统一技术方案和训练手段解决一切棋类问题。

从 AlphaGo 的一步步进化策略可以看出，DeepMind 正在考虑这套扩展技术方案的通用性，使得它能够使用一套技术解决更多问题，尤其是那些非游戏类的真实生活中有现实价值的问题。

同时，AlphaGo 系列技术也向机器学习从业人员展示了深度增强学习的强大威力，并进一步推动了相关的技术进步，目前也可以看到深度增强学习在更多领域应用的实例。

GAN：前景广阔，理论与应用极速发展中

GAN，全称为 Generative Adversarial Nets，直译为 "生成式对抗网络"。GAN 作为生成模型的代表，自 2014 年被 Ian Goodfellow 提出后引起了业界的广泛关注并不断涌现出新的改进模型，深度学习泰斗之一的 Yann LeCun 高度评价 GAN 是机器学习界近十年来最有意思的想法。

Ian Goodfellow 提出的最初的 GAN 尽管从理论上证明了生成器和判别器在多轮对抗学习后能够达到均衡态，使得生成器可以产生理想的图像结果。但是实际上，GAN 始终存在训练难、稳定性差以及模型崩塌（Model Collapse）等问题。产生这种不匹配的根本原因其实还是对 GAN 背后产生作用的理论机制没有探索清楚。

过去的一年在如何增加 GAN 训练的稳定性及解决模型崩塌方面有了可喜的进展。GAN 本质上是通过生成器和判别器进行对抗训练，逼迫生成器在不知晓某个数据集合真实分布 Pdata 的情形下，通过不断调整生成数据的分布 Pθ去拟合逼近这个真实数据分布 Pdata，所以计算当前训练过程中两个分布 Pdata 和 Pθ的距离度量标准就很关键。

Wasserstein GAN 的作者敏锐地指出了：原始 GAN 在计算两个分布的距离时采用的是 Jensen-Shannon Divergence（JSD），它本质上是 KL Divergence（KLD）的一个变种。

JSD 或者 KLD 存在一个问题：当两个分布交集很少时或者在低维流形空间下，判别器很容易找到一个判别面将生成的数据和真实数据区分开，这样判别器就不能提供有效的梯度信息并反向传导给生成器，生成器就很难训练下去，因为缺乏来自判别器指导的优化目标。

Wasserstein GAN 提出了使用 Earth-Mover 距离来代替 JSD 标准，这很大程度上改进了 GAN 的训练稳定性。后续的 Fisher GAN 等模型又对 Wasserstein GAN 进行了进一步的改进，这些技术陆续改善了 GAN 的训练稳定性。

模型崩塌也是严重制约 GAN 效果的问题，它指的是生成器在训练好之后，只能产生固定几个模式的图片，而真实的数据分布空间其实是很大的，但是模型崩塌到这个空间的若干个点上。最近一年针对这个问题也提出了比如标签平滑、Mini-Batch 判别器等启发式方法来解决生成器模型崩塌的问题并取得了一定效果。

尽管在理论层面，针对 GAN 存在的问题，业界在 2017 年提出了不少改进方法，对于 GAN 的内在工作机制也有了更深入的了解，但是很明显目前仍然没有理解其本质工作机制，这块还需要未来更有洞察力的工作来增进我们对 GAN 的理解。

GAN 具备非常广泛的应用场景，比如图像风格转换、超分辨率图像构建、自动黑白图片上色、图片实体属性编辑（例如自动给人像增加胡子、切换头发颜色等属性变换），不同领域图片之间的转换（例如同一个场景春天的图片自动转换为秋天的图片，或者白天景色自动转换为夜间的景色），甚至是图像实体的动态替换，比如把一幅图片或者视频中出现的猫换成狗（参考图 2）。

在推动 GAN 应用方面，2017 年有两项技术是非常值得关注的。其中一个是 CycleGAN，其本质是利用对偶学习并结合 GAN 机制来优化生成图片的效果的，采取类似思想的包括 DualGAN 以及 DiscoGAN 等，包括后续的很多改进模型例如 StarGAN 等。

CycleGAN 的重要性主要在于使得 GAN 系列的模型不再局限于监督学习，它引入了无监督学习的方式，只要准备两个不同领域的图片集合即可，不需要训练模型所需的两个领域的图片一一对应，这样极大扩展了它的使用范围并降低了应用的普及难度。

另外一项值得关注的技术是英伟达采取 "渐进式生成" 技术路线的 GAN 方案，这项方案的引人之处在于使得计算机可以生成 1024*1024 大小的高清图片，它是目前无论图像清晰度还是图片生成质量都达到最好效果的技术，其生成的明星图片几乎可以达到以假乱真的效果（参考图 3）。

英伟达这项由粗到细，首先生成图像的模糊轮廓，再逐步添加细节的思想其实并非特别新颖的思路，在之前的 StackGAN 等很多方案都采用了类似思想，它的独特之处在于这种由粗到细的网络结构是动态生成的而非事先固定的静态网络，更关键的是产生的图片效果特别好。

总而言之，以 GAN 为代表的生成模型在 2017 年无论是理论基础还是应用实践都产生了很大的技术进展，可以预计的是它会以越来越快的速度获得研发人员的推动，并在不远的将来在各个需要创造性的领域获得广泛应用。

Capsule：有望取代 CNN 的新结构

Capsule 今年才以论文的形式被人称 "深度学习教父" 的 Hinton 老先生发表出来，而且论文一出来就成为研究人员关注的焦点，但是其实这个思想 Hinton 已经深入思考了很久并且之前在各种场合宣传过这种思路。

Hinton 一直对 CNN 中的 Pooling 操作意见很大，他曾经吐槽说："CNN 中使用的 Pooling 操作是个大错误，事实上它在实际使用中效果还不错，但这其实更是一场灾难"。那么，MaxPooling 有什么问题值得 Hinton 对此深恶痛绝呢？参照图 4 所示的例子可以看出其原因。

在上面这张图中，给出两张人像照片，通过 CNN 给出照片所属类别及其对应的概率。第一张照片是一张正常的人脸照片，CNN 能够正确识别出是 "人类" 的类别并给出归属概率值 0.88。第二张图片把人脸中的嘴巴和眼睛对调了下位置，对于人来说不会认为这是一张正常人的脸，但是 CNN 仍然识别为人类而且置信度不降反增为 0.90。

为什么会发生这种和人的直觉不符的现象？这个锅还得 MaxPooling 来背，因为 MaxPooling 只对某个最强特征做出反应，至于这个特征出现在哪里以及特征之间应该维持什么样的合理组合关系它并不关心，总而言之，它给 CNN 的 "位置不变性" 太大自由度，所以造成了以上不符合人类认知的判断结果。

在 Capsule 的方案中，CNN 的卷积层保留，MaxPooling 层被拿掉。这里需要强调的是，Capsule 本身是一种技术框架，并不单单是具体的某项技术，Hinton 论文给出的是最简单的一种实现方法，完全可以在遵循其技术思路情况下创造全新的具体实现方法。

要理解 Capsule 的思路或者对其做一个新的技术实现其实也不困难，只要理解其中的几个关键环节就能实现此目的。如果用一句话来说明其中的关键点的话，可以用 "一个中心，两个基本点" 来概括。

这里的一个中心，指的是 Capsule 的核心目的是希望将 "视角不变性" 能力引入图像处理系统中。所谓 "视角不变性"，指的是当我们给 3D 物体拍照片的时候，镜头所对的一定是物体的某个角度看上去的样子，也就是 2D 照片反映 3D 物体一定是体现出了镜头和 3D 物体的某个视角角度，而不是 360 度的物体全貌。

那么，要达到视角不变性，就是希望给定某个物体某个角度的 2D 照片，当看到另外一张同一物体不同视角的 2D 照片时，希望 CNN 也能识别出其实这仍然是那个物体。这就是所谓的 "视角不变性"（参照图 5，上下对应的图片代表同一物体的不同视角），这是传统的 CNN 模型很难做好的事情。

至于说两个基本点，首先第一个基本点是：用一维向量或者二维数组来表征一个物体或者物体的某个部件。传统的 CNN 尽管也能用特征来表征物体或者物体的构成部件，但是往往是通过不同层级的卷积层或者 Pooling 层的某个神经元是否被激活来体现图像中是否具备某个特征。

Capsule 则考虑用更多维的信息来记载并表征特征级别的物体，类似于自然语言处理中使用 Word Embedding 表征一个单词的语义。这样做的好处是描述物体的属性可以更加细致，比如可以将物体的纹理、速度、方向等作为描述某个物体的具体属性。

第二个基本点是：Capsule 不同层间神经元之间的动态路由机制，具体而言是低层神经元向高层神经元传递信息时的动态路由机制。低层特征向高层神经元进行动态路由本质上是要体现如下思想：构成一个物体的组成部件之间会通过协同地相互加强的方式来体现这种 "整体 - 组成部分" 的关系，比如尽管图片的视角发生了变换，但是对一个人脸来说，嘴和鼻子等构成人脸的构件会协同地发生类似的视角变换，它们仍然组合在一起构成了从另外一个视角看过去的人脸。

如果从本质上来说，动态路由机制其实是组成一个物体的构件之间的特征聚类，通过聚类的方式把属于某个物体的组成部分动态地自动找出来，并建立特征的 "整体 - 部分" 的层级构成关系（比如人脸是由鼻子、嘴、眼睛等部件构成）。

以上所述的三个方面是深入理解 Capsule 的关键。Capsule 的论文发出来后引发了大量的关注和讨论，目前关于 Capsule 计算框架，大部分人持赞赏的态度，当然也有一些研究人员提出了质疑，比如论文中采用的 MINST 数据集规模小不够复杂、Capsule 的性能优势不明显、消耗较多内存计算速度慢等。

但是无论这项新计算框架能否在未来取代 CNN 标准模型，抑或它很快会被人抛弃并遗忘，Hinton 老先生这种老而弥坚的求真治学态度，以及勇于推翻自己构建的技术体系的勇气，这些是值得所有人敬佩和学习的。

CTR 预估：向深度学习进行技术升级

CTR 预估作为一个偏应用的技术方向，对于互联网公司而言应该是最重要也最关注的方向之一。道理很简单，目前大型互联网公司绝大多数利润都来源于此，因为这是计算广告方向最主要的技术手段。

从计算广告的角度讲，所谓 CTR 预估就是对于给定的用户 User，在特定的上下文 Context 下，如果展示给这个用户某个广告或者产品 Product，估算用户是否会点击这个广告或者是否会购买某个产品，即求点击概率 P (Click|User，Product，Context)。可以看到，这是个适用范围很广的技术，很多推荐场景以及包括目前比较火的信息流排序等场景都可以转换为 CTR 预估问题。

CTR 预估常用的技术手段包括演进路线一般是按照:"LR→GBDT 等树模型→FM 因子分解机模型→深度学习" 这个路径来发展的。深度学习在图像视频、语音、自然语言处理等领域最近几年获得了飞速的进展，但是最近一两年学术界才开始比较频繁地陆续出现深度学习如何和 CTR 预估相结合的文章。

Google 最早在几年前就开始研究这方面的内容，之后国内的大型互联网公司也开始跟进。

CTR 预估场景有自己独特的应用特点，而想要用深度学习解决 CTR 预估问题，必须考虑如何融入和体现这些特点。我们知道，DNN 模型便于处理连续数值型特征，而图像语音等天然满足这一条件，但是 CTR 预估场景会包含大量的离散特征，比如一个人的性别、毕业学校等都属于离散特征。

所以用深度学习做 CTR 预估首先要解决的问题是如何表征离散特征，一种常见的方法是把离散特征转换为 Onehot 表示，但是在大型互联网公司应用场景下，特征维度都是百亿以上级别的，如果采用 Onehot 表征方式，意味着网络模型会包含太多参数需要学习。

所以目前主流的深度学习解决方案都采用将 Onehot 特征表示转换为低维度实数向量（Dense Vector，类似于 NLP 中的 Word Embedding）的思路，这样可以大量降低参数规模。

另外一个 CTR 关注的重心是如何进行自动特征组合的问题，因为好的特征组合对于性能影响非常关键，而深度学习天然具有端对端的优势，所以这是神经网络模型能够自然发挥作用的地方，能够无需人工介入自动找到好的特征组合，这一般体现在深度 CTR 模型的 Deep 网络部分。

除了更早一些的流传甚广的 Wide&Deep 模型，最近一年出现了一些新的深度 CTR 模型，比如 DeepFM、DeepCross、NFM 模型等。这些模型其实如果仔细进行分析，会发现它们在网络结构上存在极大的相似性。

除了在网络结构上体现上述的两个特点：一个是 Dense Vector 表示离散特征，另外一个是利用 Deep 网络对特征组合进行自动建模外。另外一个主流的特点是将低维特征组合和高维特征组合在网络结构上进行分离，Deep 网络体现高维度特征组合，而引入神经网络版本的 FM 模型来对两两特征组合进行建模。

这三个网络结构特点基本囊括了目前所有深度 CTR 模型。图 6 和图 7 是两种常见的深度 CTR 网络结构，目前所有模型基本都采用了其中之一种结构。

计算机视觉：平稳发展的一年

计算机视觉是 AI 领域最重要的研究方向之一，它本身又包含了诸多的研究子领域，包括物体分类与识别、目标检测与追踪、语义分割、3D 重建等一些基础方向，也有超分辨率、图片视频描述、图片着色、风格迁移等偏应用的方向。目前计算机视觉处理的主流技术中，深度学习已经占据了绝对优势地位。

对于物体识别、目标检测与语义分割等基础研究领域来说，Faster R-CNN、SSD、YOLO 等技术仍然是业界最先进最主流的技术手段。

在 2017 年新出现的重要技术中，Facebook 的何恺明等提出的 Mask R-CNN 获得 ICCV2017 的最佳论文，它通过对 Faster R-CNN 增加分支网络的改进方式，同时完成了物体识别、目标检测与语义分割等基础任务，这展示了使用同一套技术同时解决多个基础领域问题的可能性，并会促进后续相关研究的继续深入探索；

而 YOLO9000 以及同样是何恺明团队在论文 "Learning to Segment Every Thing" 提出的 MaskX R-CNN 则体现了基础领域的另外一个重要发展趋势：尝试通过技术手段自动识别出更多种类的物品，终极目标是能够识别任何物体。

目前 MaskX R-CNN 能够识别超过 3000 种类别物体，而 YOLO9000 则能够识别超过 9000 种物体类别。很明显，目标检测要在各种现实领域大规模获得使用，除了速度快、识别精准外，能够大量识别各种现实生活中各种各样的物体类别也是至关重要的，而最近一年的研究在这方面产生了重要的进展。

从网络模型结构来说，2017 年并未产生类似之前 ResNet 这种产生巨大影响的新模型，ResNet 因为其明显的性能优势已经广泛使用在视觉处理的各个子领域中。虽说 DenseNet 获得了 CVPR2017 最佳论文，但它本质上是对 ResNet 的改进模型，并非全新思路的新模型。

除了上述所说的视觉处理的基础研究领域，如果对 2017 年的新技术进行归纳的话，在很多其他应用领域也可以看到如下的一些明显发展趋势：

首先，增强学习与 GAN 等新技术开始被尝试用来解决很多其它的图像处理领域的问题并取得了一定进展，比如 Image-Caption、超分辨率、3D 重建等领域，开始尝试引入这些新技术。

另外，深度学习与传统方法如何集成各自的优点并深度融合也是最近一年来视觉处理的方向，深度学习技术具有性能优异等优点，但也存在黑箱不可解释以及理论基础薄弱等缺点，而传统方法具备理论完备等优势，结合两者来充分发挥各自优势克服自身缺点是很重要的。

再次，弱监督、自监督或者无监督的方法在各个领域也越来越重要，这是有现实需求的，深度学习虽然效果好，但是对于大量标注训练数据是有要求的，而这又需要大量的标注成本，在现实中往往不可行。而探索弱监督、自监督甚至无监督的方法有助于更快促进各个领域研究的快速发展。

自然语言处理：进展相对缓慢，急需技术突破

自然语言处理也是人工智能的重要方向之一，最近两年深度学习也已经基本渗透到了自然语言处理的各个子领域并取得了一定进展，但是与深度学习在图像、视频、音频、语音识别等领域取得的强势进展相比，深度学习带给自然语言处理的技术红利相对有限，相比传统方法而言，其效果并未取得压倒性的优势。

至于产生这种现象的原因其实是个值得深入探讨的问题，关于其原因目前众说纷纭，但并未有特别有说服力的解释能够被大多数人所接受。

与一年甚至两年前相比，目前在自然语言处理领域应用的最主流深度学习基本技术工具并未发生巨大变化，最主流的技术手段仍然是以下技术组合大礼包：Word Embedding、LSTM（包括 GRU、双向 LSTM 等）、Sequence to Sequence 框架以及 Attention 注意力机制。

可以在大量自然语言处理子领域看到这些技术构件的组合及其改进的变体模型。CNN 在图像领域占据压倒性优势，但是自然语言处理领域仍然是 RNN 主导的局面，尽管 Facebook 一直大力倡导基于 CNN 模型来处理自然语言处理，除了在大规模分布式快速计算方面 CNN 确实相对 RNN 具备天然优势外，目前看不出其具备取代 RNN 主导地位的其它独特优势。

最近一年深度学习在自然语言处理领域应用有以下几个值得关注的发展趋势。

首先，无监督模型与 Sequence to Sequence 任务的融合是个很重要的进展和发展方向，比如 ICLR 2018 提交的论文 "Unsupervised Machine Translation Using Monolingual Corpora Only" 作为代表的技术思路，它使用非对齐的双语训练语料集合训练机器翻译系统并达到了较好的效果。这种技术思路本质上是和 CycleGAN 非常类似的，相信这种无监督模型的思路在 2018 年会有大量的跟进研究。

其次，增强学习以及 GAN 等最近两年比较热门的技术如何和 NLP 进行结合并真正发挥作用是个比较有前景的方向，最近一年开始出现这方面的探索并取得了一定进展，但是很明显这条路还没有走通，这块值得继续进行深入探索。

再次，Attention 注意力机制进一步广泛使用并引入更多变体，比如 Self Attention 以及层级 Attention 等，从 Google 做机器翻译的新论文 "Attention is all you need" 的技术思路可以明显体会这个趋势。另外，如何将一些先验知识或者语言学相关的领域知识和神经网络进行融合是个比较流行的研究趋势，比如将句子的句法结构等信息明确引入 Sequence to Sequence 框架中等。

除此外，神经网络的可解释性也是一个研究热点，不过这一点不仅仅局限在 NLP 领域，在整个深度学习领域范围也是非常关注的研究趋势。

本文选择了若干具有较高关注度的 AI 技术领域来阐述最近一年来该领域的重要技术进展，受作者能力以及平常主要关注领域的限制，难免挂一漏万，很多方面的重要技术进展并未列在文中，比如 Google 在力推的 TPU 为代表的 AI 芯片技术的快速发展，让机器自动学习设计神经网络结构为代表的 "学习一切" 以及解决神经网络黑箱问题的可解释性等很多重要领域的进展都未能在文中提及或展开，这些都是非常值得关注的 AI 技术发展方向。

过去的一年 AI 很多领域发生了重大的技术进展，也有不少领域前进步伐缓慢，但是不论如何，本文作者相信 AI 在未来的若干年内会在很多领域产生颠覆目前人类想象力的技术进步，让我们期待这一天早日到来！

原文发布时间为：2018-01-06

来源: https://yq.aliyun.com/articles/337478

与本文相关文章

暂无,快来抢沙发吧！