当前位置：

首页
/
IT
/
一文看尽 2018 全年 AI 技术大突破

一文看尽 2018 全年 AI 技术大突破

安妮夏乙发自凹非寺

量子位出品 | 公众号 QbitAI

2018, 仍是 AI 领域激动人心的一年.

这一年成为 NLP 研究的分水岭, 各种突破接连不断; CV 领域同样精彩纷呈, 与四年前相比 GAN 生成的假脸逼真到让人不敢相信; 新工具, 新框架的出现, 也让这个领域的明天特别让人期待......

这份报告总结和梳理了全年主要 AI 技术领域的重大进展, 同时也给出了相关的资源地址, 以便大家更好的使用, 查询.

报告共涉及了五个主要部分:

自然语言处理(NLP)

计算机视觉

工具和库

强化学习

AI 道德

下面, 我们就逐一来盘点和展望, 嘿喂狗~

自然语言处理(NLP)

2018 年在 NLP 历史上的特殊地位, 已经毋庸置疑.

这份报告认为, 这一年正是 NLP 的分水岭. 2018 年里, NLP 领域的突破接连不断: ULMFiT,ELMo, 最近大热的 BERT......

迁移学习成了 NLP 进展的重要推动力. 从一个预训练模型开始, 不断去适应新的数据, 带来了无尽的潜力, 甚至有 "NLP 领域的 ImageNet 时代已经到来" 一说.

■ ULMFiT

这个缩写, 代表 "通用语言模型的微调", 出自 ACL 2018 论文: Universal Language Model Fine-tuning for Text Classification.

正是这篇论文, 打响了今年 NLP 迁移学习狂欢的第一枪.

论文两名作者一是 Fast.ai 创始人 Jeremy Howard, 在迁移学习上经验丰富; 一是自然语言处理方向的博士生 Sebastian Ruder, 他的 NLP 博客几乎所有同行都在读.

两个人的专长综合起来, 就有了 ULMFiT. 想要搞定一项 NLP 任务, 不再需要从 0 开始训练模型, 拿来 ULMFiT, 用少量数据微调一下, 它就可以在新任务上实现更好的性能.

他们的方法, 在六项文本分类任务上超越了之前最先进的模型.

详细的说明可以读他们的论文:

https://arxiv.org/abs/1801.06146

Fast.ai 网站上放出了训练脚本, 模型等:

http://nlp.fast.ai/category/classification.html

■ ELMo

这个名字, 当然不是指《芝麻街》里那个角色, 而是 "语言模型的词嵌入", 出自艾伦人工智能研究院和华盛顿大学的论文 Deep contextualized Word representations,NLP 顶会 NAACL HLT 2018 的优秀论文之一.

ELMo 用语言模型 (language model) 来获取词嵌入, 同时也把词语所处句, 段的语境考虑进来.

这种语境化的词语表示, 能够体现一个词在语法语义用法上的复杂特征, 也能体现它在不同语境下如何变化.

当然, ELMo 也在试验中展示出了强大功效. 把 ELMo 用到已有的 NLP 模型上, 能够带来各种任务上的性能提升. 比如在机器问答数据集 SQuAD 上, 用 ELMo 能让此前最厉害的模型成绩在提高 4.7 个百分点.

这里有 ELMo 的更多介绍和资源:

https://allennlp.org/elmo

■ BERT

说 BERT 是 2018 年最火的 NLP 模型, 一点也不为过, 它甚至被称为 NLP 新时代的开端.

它由 Google 推出, 全称是 B idirectional E ncoder R epresentations from T ransformers, 意思是来自 Transformer 的双向编码器表示, 也是一种预训练语言表示的方法.

从性能上来看, 没有哪个模型能与 BERT 一战. 它在 11 项 NLP 任务上都取得了最顶尖成绩, 到现在, SQuAD 2.0 前 10 名只有一个不是 BERT 变体:

如果你还没有读过 BERT 的论文, 真的应该在 2018 年结束前补完这一课:

https://arxiv.org/abs/1810.04805

另外, Google 官方开源了训练代码和预训练模型 :

https://github.com/google-research/bert

如果你是 PyTorch 党, 也不怕. 这里还有官方推荐的 PyTorch 重实现和转换脚本 :

https://github.com/huggingface/pytorch-pretrained-BERT

■ PyText

BERT 之后, NLP 圈在 2018 年还能收获什么惊喜? 答案是, 一款新工具.

就在上周末, Facebook 开源了自家工程师们一直在用的 NLP 建模框架 PyText. 这个框架, 每天要为 Facebook 旗下各种应用处理超过 10 亿次 NLP 任务, 是一个工业级的工具包.

(Facebook 开源新 NLP 框架: 简化部署流程, 大规模应用也 OK)

PyText 基于 PyTorch, 能够加速从研究到应用的进度, 从模型的研究到完整实施只需要几天时间. 框架里还包含了一些预训练模型, 可以直接拿来处理文本分类, 序列标注等任务.

想试试? 开源地址在此:

https://github.com/facebookresearch/pytext

■ Duplex

如果前面这些研究对你来说都太抽象的话, Duplex 则是 NLP 进展的最生动例证.

名字有点陌生? 不过这个产品你一定听说过, 它就是 Google 在 2018 年 I/O 开发者大会上展示的 "打电话 AI".

它能主动打电话给美发店, 餐馆预约服务, 全程流畅交流, 简直以假乱真. Google 董事长 John Hennessy 后来称之为 "非凡的突破", 还说:"在预约领域, 这个 AI 已经通过了图灵测试."

Duplex 在多轮对话中表现出的理解能力, 合成语音的自然程度, 都是 NLP 目前水平的体现.

如果你还没看过它的视频......

■ 2019 年展望

NLP 在 2019 年会怎么样? 我们借用一下 ULMFiT 作者 Sebastian Ruder 的展望:

预训练语言模型嵌入将无处不在: 不用预训练模型, 从头开始训练达到顶尖水平的模型, 将十分罕见.

能编码专业信息的预训练表示将会出现, 这是语言模型嵌入的一种补充. 到时候, 我们就能根据任务需要, 把不同类型的预训练表示结合起来.

在多语言应用, 跨语言模型上, 将有更多研究. 特别是在跨语言词嵌入的基础上, 深度预训练跨语言表示将会出现.

计算机视觉

今年, 无论是图像还是视频方向都有大量新研究问世, 有三大研究曾在 CV 圈掀起了集体波澜.

■ BigGAN

今年 9 月, 当搭载 BigGAN 的双盲评审中的 ICLR 2019 论文现身, 行家们就沸腾了: 简直看不出这是 GAN 自己生成的 .

在计算机图像研究史上, BigGAN 的效果比前人进步了一大截. 比如在 ImageNet 上进行 128*128 分辨率的训练后, 它的 Inception Score(IS)得分 166.3, 是之前最佳得分 52.52 分 3 倍 .

除了搞定 128*128 小图之外, BigGAN 还能直接在 256*256,512*512 的 ImageNet 数据上训练, 生成更让人信服的样本.

在论文中研究人员揭秘, BigGAN 的惊人效果背后, 真的付出了金钱的代价, 最多要用 512 个 TPU 训练, 费用可达 11 万美元, 合人民币 76 万元.

不止是模型参数多, 训练规模也是有 GAN 以来最大的. 它的参数是前人的 2-4 倍, 批次大小是前人的 8 倍.

与本文相关文章

暂无,快来抢沙发吧！