一文梳理 NLP 之机器翻译和自动摘要的发展现状

NLP 的研究现状系列文章总结前三篇:

1 一文了解自然语言处理的每个范畴用到的核心技术, 难点和热点(1)

2 NLP 入门: CNN,RNN 应用文本分类, 个性化搜索, 苹果和乔布斯关系抽取(2)

3 下一代信息服务新风口: 以自然语言为基本输入方式的问答系统综述(附两篇论文)

12 机器翻译

理论应用

机器翻译 (machine translation,MT) 是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译被翻译的语言称为源语言(source language), 翻译到的语言称作目标语言(target language)

简单地讲, 机器翻译研究的目标就是建立有效的自动翻译方法模型和系统, 打破语言壁垒, 最终实现任意时间任意地点和任意语言的自动翻译, 完成人们无障碍自由交流的梦想

从理论上讲, 机器翻译涉及语言学计算语言学人工智能机器学习, 甚至认知语言学等多个学科, 是一个典型的多学科交叉研究课题, 因此开展这项研究具有非常重要的理论意义, 既有利于推动相关学科的发展, 揭示人脑实现跨语言理解的奥秘, 又有助于促进其他自然语言处理任务, 包括中文信息处理技术的快速发展

可以说离开机器翻译, 基于大数据的多语言信息获取挖掘分析和决策等其他应用都将成为空中楼阁尤其值得提出的是, 在未来很长一段时间里, 建立于丝绸之路这一历史资源之上的一带一路将是我国与周边国家发展政治经济, 进行文化交流的主要战略据统计, 一带一路涉及 60 多个国家 44 亿人口 53 种语言, 可见机器翻译是一带一路战略实施中不可或缺的重要技术

技术现状

基于规则的机器翻译方法需要人工设计和编纂翻译规则, 统计机器翻译方法能够自动获取翻译规则, 但需要人工定义规则的形式, 而端到端的神经网络机器翻译方法可以直接通过编码网络和解码网络自动学习语言之间的转换算法

从某种角度讲, 其自动化程度和智能化程度在不断提升, 机器翻译质量也得到了显著改善机器翻译技术的研究现状可从欧盟组织的国际机器翻译评测 (WMT) 的结果中窥得一斑该评测主要针对欧洲语言之间的互译, 2006 年至 2016 年每年举办一次对比法语到英语历年的机器翻译评测结果可以发现, 译文质量已经在自动评价指标 BLEU 值上从最初小于 0.3 到目前接近 0.4(大量的人工评测对比说明, BLEU 值接近 0.4 的译文能够达到人类基本可以理解的程度)

虽然机器翻译系统评测的分值呈逐年增长的趋势, 译文质量越来越好, 但与专业译员的翻译结果相比, 机器翻译还有很长的路要走, 可以说, 在奔向信达雅翻译目标的征程上, 目前的机器翻译基本挣扎在信的阶段, 很多理论和技术问题仍有待于更深入的研究和探索

13 自动摘要

概念

自动文摘 (又称自动文档摘要) 是指通过自动分析给定的一篇文档或多篇文档, 提炼总结其中的要点信息, 最终输出一篇长度较短可读性良好的摘要(通常包含几句话或数百字), 该摘要中的句子可直接出自原文, 也可重新撰写所得简言之, 文摘的目的是通过对原文本进行压缩提炼, 为用户提供简明扼要的文字描述用户可以通过阅读简短的摘要而知晓原文中所表达的主要内容, 从而大幅节省阅读时间

应用

自动文摘研究的目标是建立有效的自动文摘方法与模型, 实现高性能的自动文摘系统近二十年来, 业界提出了各类自动文摘方法与模型, 用于解决各类自动摘要问题, 在部分自动摘要问题的研究上取得了明显的进展, 并成功将自动文摘技术应用于搜索引擎新闻阅读等产品与服务中例如谷歌百度等搜索引擎均会为每项检索结果提供一个短摘要, 方便用户判断检索结果相关性在新闻阅读软件中, 为新闻事件提供摘要也能够方便用户快速了解该事件 2013 年雅虎耗资 3000 万美元收购了一项自动新闻摘要应用 Summly, 则标志着自动文摘技术的应用走向成熟

自动文摘的研究在图书馆领域和自然语言处理领域一直都很活跃, 最早的应用需求来自于图书馆图书馆需要为大量文献书籍生成摘要, 而人工摘要的效率很低, 因此亟需自动摘要方法取代人工高效地完成文献摘要任务随着信息检索技术的发展, 自动文摘在信息检索系统中的重要性越来越大, 逐渐成为研究热点之一经过数十年的发展, 同时在 DUC 与 TAC 等自动文摘国际评测的推动下, 文本摘要技术已经取得长足的进步国际上自动文摘方面比较著名的几个系统包括 ISI 的 NeATS 系统, 哥伦比亚大学的 NewsBlaster 系统, 密歇根大学的 NewsInEssence 系统等

研究方法

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要 (extractive summarization) 和生成式摘要(abstractive summarization) 抽取式方法相对比较简单, 通常利用不同方法对文档结构单元 (句子段落等) 进行评价, 对每个结构单元赋予一定权重, 然后选择最重要的结构单元组成摘要而生成式方法通常需要利用自然语言理解技术对文本进行语法语义分析, 对信息进行融合, 利用自然语言生成技术生成新的摘要句子目前的自动文摘方法主要基于句子抽取, 也就是以原文中的句子作为单位进行评估与选取抽取式方法的好处是易于实现, 能保证摘要中的每个句子具有良好的可读性

为解决如前所述的要点筛选和文摘合成这两个关键科学问题, 目前主流自动文摘研究工作大致遵循如下技术框架: 内容表示权重计算内容选择内容组织首先将原始文本表示为便于后续处理的表达方式, 然后由模型对不同的句法或语义单元进行重要性计算, 再根据重要性权重选取一部分单元, 经过内容上的组织形成最后的摘要

内容表示与权重计算

原文档中的每个句子由多个词汇或单元构成, 后续处理过程中也以词汇等元素为基本单位, 对所在句子给出综合评价分数

以基于句子选取的抽取式方法为例, 句子的重要性得分由其组成部分的重要性衡量由于词汇在文档中的出现频次可以在一定程度上反映其重要性, 我们可以使用每个句子中出现某词的概率作为该词的得分, 通过将所有包含词的概率求和得到句子得分

也有一些工作考虑更多细节, 利用扩展性较强的贝叶斯话题模型, 对词汇本身的话题相关性概率进行建模一些方法将每个句子表示为向量, 维数为总词表大小通常使用加权频数作为句子向量相应维上的取值加权频数的定义可以有多种, 如信息检索中常用的词频 - 逆文档频率 (TF-IDF)权重

也有研究工作考虑利用隐语义分析或其他矩阵分解技术, 得到低维隐含语义表示并加以利用得到向量表示后计算两两之间的某种相似度 (例如余弦相似度) 随后根据计算出的相似度构建带权图, 图中每个节点对应每个句子在多文档摘要任务中, 重要的句子可能和更多其他句子较为相似, 所以可以用相似度作为节点之间的边权, 通过迭代求解基于图的排序算法来得到句子的重要性得分

也有很多工作尝试捕捉每个句子中所描述的概念, 例如句子中所包含的命名实体或动词

出于简化考虑, 现有工作中更多将二元词 (bigram) 作为概念近期则有工作提出利用频繁图挖掘算法从文档集中挖掘得到深层依存子结构作为语义表示单元

另一方面, 很多摘要任务已经具备一定数量的公开数据集, 可用于训练有监督打分模型例如对于抽取式摘要, 我们可以将人工撰写的摘要贪心匹配原文档中的句子或概念, 从而得到不同单元是否应当被选作摘要句的数据然后对各单元人工抽取若干特征, 利用回归模型或排序学习模型进行有监督学习, 得到句子或概念对应的得分

文档内容描述具有结构性, 因此也有利用隐马尔科夫模型 (HMM) 条件随机场 (CRF) 结构化支持向量机 (Structural SVM) 等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作所提取的特征包括所在位置包含词汇与邻句的相似度等等对特定摘要任务一般也会引入与具体设定相关的特征, 例如查询相关摘要任务中需要考虑与查询的匹配或相似程度

内容选择

无论从效果评价还是从实用性的角度考虑, 最终生成的摘要一般在长度上会有限制在获取到句子或其他单元的重要性得分以后, 需要考虑如何在尽可能短的长度里容纳尽可能多的重要信息, 在此基础上对原文内容进行选取内容选择方法包括贪心选择和全局优化

相比机器翻译自动问答知识图谱情感分析等热门领域, 自动文摘在国内并没有受到足够的重视国内早期的基础资源与评测举办过中文单文档摘要的评测任务, 但测试集规模比较小, 而且没有提供自动化评价工具 2015 年 CCF 中文信息技术专委会组织了 NLPCC 评测, 其中包括了面向中文微博的新闻摘要任务, 提供了规模相对较大的样例数据和测试数据, 并采用自动评价方法, 吸引了多支队伍参加评测, 目前这些数据可以公开获得但上述中文摘要评测任务均针对单文档摘要任务, 目前还没有业界认可的中文多文档摘要数据, 这在事实上阻碍了中文自动摘要技术的发展

近些年, 市面上出现了一些文本挖掘产品, 能够提供中文文档摘要功能(尤其是单文档摘要), 例如方正智思拓尔思(TRS), 海量科技等公司的产品百度等搜索引擎也能为检索到的文档提供简单的单文档摘要这些文档摘要功能均被看作是系统的附属功能, 其实现方法均比较简单

来源: https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247485293&idx=1&sn=0bab5a13830b64ff7463c7035d9be1ab&chksm=eb7c2aa6dc0ba3b0fa80058e587f4aea5ab1203490e581a002d1ee930e9e38b885ce5a884b6a#rd

与本文相关文章

暂无,快来抢沙发吧！