不久自然语言处理领域顶级会议 ACL 已于当地时间 7 月 28 日在意大利佛罗伦萨开幕. 不久之前, ACL 2019 官方网站公布了入围论文奖项的 32 篇候选论文. 刚刚, ACL 2019 最终获奖论文公布, 多所国内高校及众多华人学者获得荣誉.
值得一提的是, 来自中科院, 华为诺亚方舟实验室等机构的论文获得了最佳长论文; 一篇来自南京理工大学论文获得了杰出论文奖. 除此之外, 还有很多华人学者都是获奖论文的作者. 由此可见, 国内研究者在 NLP 领域还是取得非常不错的成绩.
随着人工智能浪潮的兴起, 学术会议越来越受关注. 近年来, CVPR,NeurIPS 等顶级国际 AI 会议在接收论文数量, 参会人数上不断刷新记录. NLP 作为人工智能的重要分支之一, 该领域的国际顶会 ACL 自然也火热异常.
今年 3 月份, ACL 官方公布了收到的论文投稿数量 --2904 篇, 相比于去年的 1544 篇出现了大幅增长. 在接收率方面, 此届大会共接收 660 篇论文, 接受率为 22.7%, 其中包括 447 篇长论文, 213 篇短论文. 下表展示了今年 ACL 各领域的论文提交情况:
在参会人数上, ACL 2019 也创历届新高. 据大会主席 Lluís Màrquez 介绍, 本届 ACL 的注册参会人数达到了 3160 人.
毫无疑问, ACL 已经成为了目前规模最大的 NLP 学术会议之一.
最佳长论文
论文: Bridging the Gap between Training and Inference for Neural Machine Translation.
作者: Wen Zhang, Yang Feng, Fandong Meng, Di You and Qun Liu(中国科学院计算技术研究所, 中国科学院大学, 腾讯 WeChat AI, 伍斯特理工学院, 华为诺亚方舟实验室)
链接: https://arxiv.org/abs/1906.02448
在训练时, 神经机器翻译 (NMT) 利用 ground truth 词作为预测时的上下文, 推理时则必须从头生成整个句子. 这种带不带标注上下文的差异导致误差的累积. 此外, 单词级别的训练要求生成的序列与 ground truth 序列严格匹配, 这导致模型对不同但合理的翻译进行过校正.
在本文中, 研究者不仅从 ground truth, 还从模型在训练中预测的序列采样上下文单词, 并选择句子级别的最优预测序列来解决这些问题, 其中预测语句是句子级别的最优选择. 也就是说, 翻译模型不再逐词对比标注而确定损失函数, 它会考虑同一句话不同的译法.
最佳论文直观的解决方案是什么
直观地说, 为了解决这个问题, 模型在训练过程中做预测应该与推理过程采用相同的条件. 受 DATA AS DEMONSTRATOR(DAD)的启发, 研究者在训练过程中将标注单词和预测单词作为上下文一起馈入, 从而弥补训练与推断间的巨大差异.
此外, MT 模型通常对交叉熵损失进行优化, 这就要求预测序列与 ground truth 序列在词级别上进行严格的成对匹配. 一旦模型生成了一个偏离 ground truth 序列的单词, 交叉熵损失将立即纠正错误, 并将剩余的生成拉回到 ground truth 序列. 这虽然容易实现, 但很明显损失函数会将同一句话的不同译法视为误差.
虽然直观的解决方案会产生这些问题, 但总的而言, 研究表明我们可以通过一种名为 Overcorrection Recovery (OR) 的方法解决这些问题.
在本文中, 研究者提出了一种能提高 NMT「过校正」恢复能力的方法. 首先, 该方法从预测到的单词中选择 oracle 单词(模型预测的词), 然后从 oracle 单词和标注单词中采样出上下文.
同时, oracle 单词的选择不仅通过逐字贪婪搜索完成, 而且还通过 BLEU 这样句子级别的评估来选择, 这使得在交叉熵限制下有更大的灵活性. 在训练开始时, 模型以更大的概率选择上下文标注词. 随着模型逐渐收敛, 更多的 oracle 单词被选为上下文.
通过这种方式, 训练过程从完全引导的规划转变为较少引导的规划. 在这种机制下, 模型有机会学习处理推理阶段中的错误, 而且还能够从过度修正中恢复替代翻译.
在 RNNsearch 模型和更强的 Transformer 模型上, 研究者对此方法进行了验证. 结果表明, 该方法可以显着提高两种模型的性能.
如下图 1 所示, 该方法的主要框架是以一定的概率将标注单词或者先前预测到的词作为上下文.
图 1: 本文所提出方法的架构
最佳短论文
标题: Do you know that Florence is packed with visitors? Evaluating state-of-the-art models of speaker commitment
作者: 蒋南江(Nanjiang Jiang),Marie-Catherine de Marneffe(美国俄亥俄州立大学)
论文地址: https://www.aclweb.org/anthology/P19-1412
推断说话者承诺 (又称为事件事实) 对信息提取和问答非常重要. 在这篇论文中, 研究者通过在挑战性的自然数据集上分析模型误差的语言学相关性, 从而探索语言学缺陷驱动说话人承诺模型错误模式的假设.
研究者在 CommitmentBank 数据集上评估了两个 SOTA 的说话人承诺模型(speaker commitment model).
图注: CommitmentBank 数据集长这个样子.
他们发现获取语言学信息的模型要优于基于 LSTM 的模型, 这表明我们需要语言学知识来捕捉具有挑战性的自然数据. 研究者表示按语言学特征划分的 item 揭示了不对称的错误模式: 虽然模型在某些类别上取得了很好的表现, 但它们无法泛化到自然语言中的各种语言学结构, 例如条件句.
所以, 这篇最佳短论文到底在说什么? 我们先要了解说话者承诺这一任务.
预测说话人承诺是确定其对一个句子中某个事件的承诺程度是事实, 反事实还是不确定. 例如如果某人问「你知道佛罗伦萨挤满了游客吗?」, 那么他希望听者相信佛罗伦萨挤满了游客; 但是如果他问「你觉得佛罗伦萨挤满了游客吗?」, 那么说话者希望听者相信佛罗伦萨没挤满游客. 这就是针对事件承诺的的事实与反事实.
在本文中, 研究者利用 CommitmentBank 数据集来评估 Stanovsky 等人 (2017 年) 和 Rudinger 等人 (2018 年) 分别提出的 SOTA 说话人承诺模型. CommitmentBank 数据集虽局限于特定语言结构, 但仍是一个很好的测试用例. 通过分析当前说话人承诺模型在有挑战性的特定语言结构上的表现, 这种对说话者承诺的预测能够评估这些模型是否可以实现鲁棒的语言理解.
最佳 demo 论文
论文: OpenKiwi: An Open Source Framework for Quality Estimation
作者: Fabio Kepler, Jonay Trenous, Marcos Treviso, Miguel Vera and André F. T. Martins(Unbabel,Instituto de Telecomunicac¸oes)
链接: https://www.aclweb.org/anthology/P19-3020
研究者在论文中介绍了一个基于 PyTorch 的翻译质量评估开源框架 --OpenKiwi.OpenKiwi 支持词和句子级别质量评估系统的训练和测试, 实现了 WMT 2015-18 质量评估竞赛的获奖系统. 他们在两个 WMT 2018 的数据集 (英德 SMT 和 NMT) 上对 OpenKiwi 进行了基准测试, 在单词级别的任务上获得 SOTA 性能, 在句子级别的任务上接近 SOTA 性能.
杰出论文奖
标题: Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
作者: Rui Xia and Zixiang Ding(南京理工大学)
链接: https://arxiv.org/abs/1906.01267
摘要: 情感原因抽取 (ECE) 的目的是抽取文本中某些情感背后的潜在原因. 然而, 它存在以下两个不足之处: 1)ECE 在提取原因前必须对情感进行标注, 这极大地限制了其在现实场景中的应用; 2)先对情感进行标注再抽取原因的做法忽略了二者互指的事实. 研究者在本文中提出了一个新的任务: 情感 - 原因对抽取(ECPE), 旨在抽取文档中潜在的情感 - 原因对. 针对这一新的 ECPE 任务, 研究者提出了一种 2 步的方法: 首先通过多任务学习进行个体情感抽取和原因抽取, 然后进行情感 - 原因配对和过滤. 在一个基准情感原因语料库上的实验结果证明了 ECPE 任务的可行性和本文所提方法的有效性.
标题: A Simple Theoretical Model of Importance for Summarization
作者: Maxime Peyrard(瑞士洛桑联邦理工学院)
链接: https://www.aclweb.org/anthology/P19-1101
摘要: 摘要的研究主要是由实证分析方法驱动的, 它利用潜在的信息重要性概念, 来精心设计系统以在标准数据集上实现良好的表现. 研究者认为, 建立重要性的理论模型将加深我们对任务的理解, 也有助于进一步改进摘要系统. 为此, 研究者对几个概念提出了简单但严格的定义, 这些概念以前只在摘要中直观地使用: 冗余, 相关性和信息量. 作为一个单独的量, 重要性自然而然地统一了这些概念. 此外, 研究者还提供了直觉来解释所提出的量和实验, 以证明框架的潜力, 为后续工作提供信息和指导.
标题: Transferable Multi-Domain State Generator for Task-Oriented
作者: Chien-Sheng Wu, Andrea Madotto, Ehsan Hosseini-Asl, Caiming Xiong, Richard Socher and Pascale Fung(香港科技大学, Salesforce 研究院)
链接: https://arxiv.org/abs/1905.08743
摘要: 作者在这篇论文中提出了一种可迁移对话状态生成器 (Transferable Dialogue State Generator,TRADE), 它能够借助于复制机制(copy mechanism) 从话语中生成对话状态, 并且在预测训练中未见过的 (domain, slot, value) 三元组时促进知识转移. 该模型由一个话语编码器, 一个 slot gate 和一个状态生成器组成, 这些都是跨领域共享的. 实验结果表明, TRADE 在人 - 人对话数据集 MultiWOZ 的五个领域中实现了 48.62% 的 SOTA 联合目标准确率. 此外, 通过对未见过领域进行零样本和少样本对话状态跟踪的模拟, 作者证明了 TRADE 的迁移能力. TRADE 在其中一个零样本领域实现了 60.58% 的联合目标准确率, 并且能够在记住已经训练领域的情况下适应少样本案例.
标题: We need to talk about standard splits
作者: Kyle Gorman and Steven Bedrick(纽约市立大学, 俄勒冈健康与科学大学)
链接: https://wellformedness.com/papers/gorman-bedrick-2019.pdf
摘要: 语音和语言技术的标准做法是根据留出测试集对系统进行排名. 然而很少有研究者应用统计检验确定性能差异是不是偶然发生的, 同样很少有研究者检验系统在多种训练 - 测试分割方案中的稳定性. 研究者使用了从 2000 年到 2018 年间发布的 9 个词性标注模型, 并进行了复现性研究, 其中每一个模型都在最广泛使用的「标准分割方案」下提供了 SOTA 结果.
但研究者最终无法通过随机生成分割标准可靠地复现排名, 这表明排名的差异很可能存在随机性. 所以研究者最后建议我们在对比系统时, 应该使用随机生成的训练 - 测试分割方案.
标题: Zero-Shot Entity Linking by Reading Entity Descriptions
作者: Lajanugen Logeswaran, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, Jacob Devlin and Honglak Lee(密歇根大学, 谷歌研究院)
链接: https://arxiv.org/pdf/1906.07348.pdf
摘要: 在此论文中, 研究者提出了 zero-shot 实体链接任务, 也就是在没有域内标注数据的情况下, 指代 (mention) 必须与未知实体相关联. 这个任务的目标是能稳健地迁移到高度专业化的领域, 因此就不需要再假设元数据或者别名表. 在此设定中, 实体只能通过文本描述确定, 模型也极其依赖于语言理解来解析新的实体.
首先, 研究者表明, 在大型未标注数据上预训练的强机器阅读理解模型能够用于未知实体. 其次, 他们提出了一种简单, 高效的适应性预训练策略, 能够解决连接到新领域未知实体时的域迁移难题, 这个称之为域自适应训练(DAP). 研究者在为此任务构建的数据集上进行了实验, 表明 DAP 改进了包括 BERT 在内的预训练基线结果. 数据和代码开源链接: https: //GitHub.com/lajanugen/zeshel.
来源: http://www.tuicool.com/articles/iqAvuyr