安妮 夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI
2018, 仍是 AI 领域激动人心的一年.
这一年成为 NLP 研究的分水岭, 各种突破接连不断; CV 领域同样精彩纷呈, 与四年前相比 GAN 生成的假脸逼真到让人不敢相信; 新工具, 新框架的出现, 也让这个领域的明天特别让人期待......
这份报告总结和梳理了全年主要 AI 技术领域的重大进展, 同时也给出了相关的资源地址, 以便大家更好的使用, 查询.
报告共涉及了五个主要部分:
自然语言处理(NLP)
计算机视觉
工具和库
强化学习
AI 道德
下面, 我们就逐一来盘点和展望, 嘿喂狗~
自然语言处理(NLP)
2018 年在 NLP 历史上的特殊地位, 已经毋庸置疑.
这份报告认为, 这一年正是 NLP 的分水岭. 2018 年里, NLP 领域的突破接连不断: ULMFiT,ELMo, 最近大热的 BERT......
迁移学习成了 NLP 进展的重要推动力. 从一个预训练模型开始, 不断去适应新的数据, 带来了无尽的潜力, 甚至有 "NLP 领域的 ImageNet 时代已经到来" 一说.
■ ULMFiT
这个缩写, 代表 "通用语言模型的微调", 出自 ACL 2018 论文: Universal Language Model Fine-tuning for Text Classification.
正是这篇论文, 打响了今年 NLP 迁移学习狂欢的第一枪.
论文两名作者一是 Fast.ai 创始人 Jeremy Howard, 在迁移学习上经验丰富; 一是自然语言处理方向的博士生 Sebastian Ruder, 他的 NLP 博客几乎所有同行都在读.
两个人的专长综合起来, 就有了 ULMFiT. 想要搞定一项 NLP 任务, 不再需要从 0 开始训练模型, 拿来 ULMFiT, 用少量数据微调一下, 它就可以在新任务上实现更好的性能.
他们的方法, 在六项文本分类任务上超越了之前最先进的模型.
详细的说明可以读他们的论文:
https://arxiv.org/abs/1801.06146
Fast.ai 网站上放出了训练脚本, 模型等:
http://nlp.fast.ai/category/classification.html
■ ELMo
这个名字, 当然不是指《芝麻街》里那个角色, 而是 "语言模型的词嵌入", 出自艾伦人工智能研究院和华盛顿大学的论文 Deep contextualized Word representations,NLP 顶会 NAACL HLT 2018 的优秀论文之一.
ELMo 用语言模型 (language model) 来获取词嵌入, 同时也把词语所处句, 段的语境考虑进来.
这种语境化的词语表示, 能够体现一个词在语法语义用法上的复杂特征, 也能体现它在不同语境下如何变化.
当然, ELMo 也在试验中展示出了强大功效. 把 ELMo 用到已有的 NLP 模型上, 能够带来各种任务上的性能提升. 比如在机器问答数据集 SQuAD 上, 用 ELMo 能让此前最厉害的模型成绩在提高 4.7 个百分点.
这里有 ELMo 的更多介绍和资源:
https://allennlp.org/elmo
■ BERT
说 BERT 是 2018 年最火的 NLP 模型, 一点也不为过, 它甚至被称为 NLP 新时代的开端.
它由 Google 推出, 全称是 B idirectional E ncoder R epresentations from T ransformers, 意思是来自 Transformer 的双向编码器表示, 也是一种预训练语言表示的方法.
从性能上来看, 没有哪个模型能与 BERT 一战. 它在 11 项 NLP 任务上都取得了最顶尖成绩, 到现在, SQuAD 2.0 前 10 名只有一个不是 BERT 变体:
如果你还没有读过 BERT 的论文, 真的应该在 2018 年结束前补完这一课:
https://arxiv.org/abs/1810.04805
另外, Google 官方 开源了训练代码和预训练模型 :
https://github.com/google-research/bert
如果你是 PyTorch 党, 也不怕. 这里还有 官方推荐的 PyTorch 重实现和转换脚本 :
https://github.com/huggingface/pytorch-pretrained-BERT
■ PyText
BERT 之后, NLP 圈在 2018 年还能收获什么惊喜? 答案是, 一款新工具.
就在上周末, Facebook 开源了自家工程师们一直在用的 NLP 建模框架 PyText. 这个框架, 每天要为 Facebook 旗下各种应用处理超过 10 亿次 NLP 任务, 是一个工业级的工具包.
(Facebook 开源新 NLP 框架: 简化部署流程, 大规模应用也 OK)
PyText 基于 PyTorch, 能够加速从研究到应用的进度, 从模型的研究到完整实施只需要几天时间. 框架里还包含了一些预训练模型, 可以直接拿来处理文本分类, 序列标注等任务.
想试试? 开源地址在此:
https://github.com/facebookresearch/pytext
■ Duplex
如果前面这些研究对你来说都太抽象的话, Duplex 则是 NLP 进展的最生动例证.
名字有点陌生? 不过这个产品你一定听说过, 它就是 Google 在 2018 年 I/O 开发者大会上展示的 "打电话 AI".
它能主动打电话给美发店, 餐馆预约服务, 全程流畅交流, 简直以假乱真. Google 董事长 John Hennessy 后来称之为 "非凡的突破", 还说:"在预约领域, 这个 AI 已经通过了图灵测试."
Duplex 在多轮对话中表现出的理解能力, 合成语音的自然程度, 都是 NLP 目前水平的体现.
如果你还没看过它的视频......
■ 2019 年展望
NLP 在 2019 年会怎么样? 我们借用一下 ULMFiT 作者 Sebastian Ruder 的展望:
预训练语言模型嵌入将无处不在: 不用预训练模型, 从头开始训练达到顶尖水平的模型, 将十分罕见.
能编码专业信息的预训练表示将会出现, 这是语言模型嵌入的一种补充. 到时候, 我们就能根据任务需要, 把不同类型的预训练表示结合起来.
在多语言应用, 跨语言模型上, 将有更多研究. 特别是在跨语言词嵌入的基础上, 深度预训练跨语言表示将会出现.
计算机视觉
今年, 无论是图像还是视频方向都有大量新研究问世, 有三大研究曾在 CV 圈掀起了集体波澜.
■ BigGAN
今年 9 月, 当搭载 BigGAN 的双盲评审中的 ICLR 2019 论文现身, 行家们就沸腾了: 简直看不出这是 GAN 自己生成的 .
在计算机图像研究史上, BigGAN 的效果比前人进步了一大截. 比如在 ImageNet 上进行 128*128 分辨率的训练后, 它的 Inception Score(IS)得分 166.3, 是之前最佳得分 52.52 分 3 倍 .
除了搞定 128*128 小图之外, BigGAN 还能直接在 256*256,512*512 的 ImageNet 数据上训练, 生成更让人信服的样本.
在论文中研究人员揭秘, BigGAN 的惊人效果背后, 真的付出了金钱的代价, 最多要用 512 个 TPU 训练, 费用可达 11 万美元, 合人民币 76 万元.
不止是模型参数多, 训练规模也是有 GAN 以来最大的. 它的参数是前人的 2-4 倍, 批次大小是前人的 8 倍.
相关地址
研究论文:
https://openreview.net/pdf?id=B1xsqj09Fm
- https://autokeras.com/
- GitHub:
- https://github.com/jhfjhfj1/autokeras
- https://github.com/google/dopamine/tree/master/docs#downloads
- colabs:
- https://github.com/google/dopamine/blob/master/dopamine/colab/README.md
来源: http://www.tuicool.com/articles/2uyauaz