预训练语言模型 (PLM) 是 NLP 领域的一大热门话题. 从 BERT 到 GPT2 再到 XLNet, 各种预训练模型层出不穷, 不少同学感叹,「大佬慢点, 跟不上了......」那么, 这么多预训练模型要怎么学? 它们之间有什么关联? 为了理清这些问题, 来自清华大学的两位本科同学整理了一份预训练语言模型必读论文列表, 还用图的形式整理出了这些模型之间的复杂关系.
GitHub 项目: https://github.com/thunlp/PLMpapers
项目的两位作者 -- 王晓智和张正彦都是清华大学的在读本科生. 其中, 王晓智师从清华大学计算机系教授李涓子和副教授刘知远, 研究方向为 NLP 和知识图谱中的深度学习技术, 于今年 4 月份入选 2019 年清华大学「未来学者」计划第二批名单; 张正彦则参与过孙茂松教授指导的很多工作, 如之前发布的「 图神经网络必读论文列表 」. 此外, 他还是增强版语言表征模型 ERNIE 的第一作者, 并参与了多领域中文预训练模型仓库 OpenCLaP 的创建.
在这个预训练模型论文列表项目中, 两位同学首先给出了一份预训练语言模型的关系图:
图中列出了 BERT,GPT,XLNet,ERNIE 等大家熟知的模型以及它们之间的关系. 以 BERT 和清华大学提出的 ERNIE 为例, 张正彦等人曾在 论文 中指出, BERT 等预训练语言模型只能学习语言相关的信息, 学习不到「知识」相关的信息. 因此他们提出用知识图谱增强 BERT 的预训练效果, 让预训练语言模型也能变得「有文化」. 在这张图中我们可以清楚地看到论文中阐述的这种关系, 即 BERT + 知识图谱→ERNIE(清华版). 这种简化版的展示对于初学者理清思路非常有帮助.
除了这张关系图, 两位同学还给出了一份预训练语言模型必读论文列表. 列表分为三个部分: 模型, 知识蒸馏与模型压缩以及相关分析论文. 机器之心曾经介绍过其中的一些论文, 读者可以根据链接找到相关论文中文介绍.
模型部分包含 34 篇论文, 列表如下:
其中, 机器之心介绍过的论文如下:
NAACL 2018 | 最佳论文: 艾伦人工智能研究所提出新型深度语境化词表征
迄今最大模型? OpenAI 发布参数量高达 15 亿的通用语言模型 GPT-2
ACL 2019 | 清华等提出 ERNIE: 知识图谱结合 BERT 才是「有文化」的语言模型
NLP 前沿研究成果大开源, 百度 PaddleNLP - 研究版发布
7 Papers | 清华天机芯片; 非侵入式脑机接口; ACL 2019 论文
「知识蒸馏与模型压缩」部分包含 11 篇论文, 列表如下:
其中, 机器之心介绍过的论文如下:
TinyBERT: 模型小 7 倍, 速度快 8 倍, 华中科大, 华为出品
预训练小模型也能拿下 13 项 NLP 任务, 谷歌 ALBERT 三大改造登顶 GLUE 基准
分析部分包含 26 篇论文, 列表如下:
其中, 机器之心介绍过的论文如下:
7 papers | 华为, MIT 韩松论文; DeepMind 开源 OpenSpiel; 目标检测算法全面综述
红楼梦, 法律, BERT 已有如此多的神奇应用
如何可视化 BERT? 你需要先理解神经网络的语言, 树和几何性质
ACL 2019 提前看: 预训练语言模型的最新探索
技惊四座的 BERT 全靠数据集? 大模型霸榜或许是学界的灾难
嵌入向量能否理解数字? BERT 竟不如 ELMo?
如何可视化 BERT? 你需要先理解神经网络的语言, 树和几何性质
7 Papers | 谷歌量子霸权论文; 13 项 NLP 任务夺冠的小模型 ALBERT
参考链接:
https://github.com/thunlp/PLMpapers
工程 https://www.jiqizhixin.com/categories/practice 清华大学 BERT 预训练模型
相关数据
韩松 人物
2017 年斯坦福大学电子工程系博士毕业, 师从 NVIDIA 首席科学家 Bill Dally 教授. 他的研究也广泛涉足深度学习和计算机体系结构, 他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文, ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文, 对业界影响深远. 他的研究成果在 NVIDIA,Google,Facebook 得到广泛应用, 博士期间创立了深鉴科技, 现为麻省理工学院电气工程和计算机科学系的助理教授.
来源: http://www.tuicool.com/articles/yAN3Avb