码修
5 小时前
论文: QuaSE: Sequence Editing under Quantifiable Guidance
下载: https://arxiv.org/abs/1804.07007
在这篇由腾讯 AI Lab 主导, 与香港中文大学 (The Chinese University of Hong Kong) 合作完成的论文中, 作者提出一种新的量化指标引导下的序列编辑模型, 可以编辑生成与给定的量化指标相匹配的句子, 未来可以扩展到诸如 CTR 引导下的新闻标题和摘要生成, 广告描述生成等业务场景中.
研究问题
论文的主要任务是给定一个句子以及其对应的分数, 例如 Yelp 平台上的用户评价 "The food is terrible" 以及其评分 1, 然后我们设置一个目标分数, 让模型能够生成与目标分数相匹配的句子, 并且原句的主要内容在新的句子中必须得以保持. 例如, 给定数值 3, 生成 "The food is OK". 给定数值 5, 生成 "The food is extremely delicious". 任务的挑战和特点主要有以下几方面:(1) 给定的数值可以是连续的, 例如 2.5, 3.7, 4.1 等, 意味着很难像机器翻译一样能够有人工标注的成对出现的训练样本.(2) 模型需要具有甄别句子中与数值相关的语义单元的能力.(3) 根据数值进行句子编写时, 必须保持原句的主要内容.
模型框架
图 1:QuaSE 模型框架
图 1 为我们提出的模型 QuaSE 的框架. 包含单句建模以及序列编辑两个部分的建模. 左半部分为单句建模. 其中 X 和 R 是观测值, 分别表示句子 (例如用户对餐厅的评价) 以及其对应的数值 (例如用户评分).Z 和 Y 是隐变量, 是对句子内容以及句子数值相关属性的建模表示. 受 Variational Auto-Encoders(VAE) 模型的启发, 对于隐变量 Z 和 Y 的建模是通过生成模型的方式实现. 我们设计了两个 Encoder(E1 和 E2)和一个 Decoder (D). X 以 Z 和 Y 为条件进行生成. 模型的优化目标是使得生成的句子 X'能够最大限度的重建输入句子 X. 同时, 由于优化目标积分计算困难等原因, 我们采用变分的方法探寻优化目标的下界. 单句建模的优化目标为:
此外, 我们还设计了一个回归函数 F 来学习隐变量 Y 和数值 R 的映射关系.
对于序列编辑过程的建模, 我们首先构建了一个伪平行句对数据集. 例如, 对于句子 x="I will never come back to the restaurant." 我们找到其伪平行句子为 x'="I will definitely come back to the restaurant, recommend!"其中 x 和 x'对应的数值分别是 1 和 5.
对于句子编辑的建模主要包含三个部分:
(1) 建立句子 x 到句子 x'的内容变化与数值变化之间的关系. 原句 x 到目标句 x'的变化肯定是增加或者减少了某些词, 从而使得在数值这个属性上产生变化, 即 y 到 y'的差别. 对于这个变化映射我们设计了第一个目标函数 L_diff.
(2) 我们提到 x 和 x'必须在主要内容方面继续保持一致, 例如必须都是在描述"restaurant". 所以我们引入第二个目标函数 L_sim 来使得 z 和 z'尽量的相似.
(3) 我们知道生成过程是给定 z 和 y 来生成 x (p(x|z,y)), 那么改写的过程可以是给定 z 和 y'来生成 x' (p(x'|z,y')), 也可以同时是给定 z'和 y 来生成 x (p(x|z',y)), 这是个双向过程. 所以对于这两个生成过程我们引入了第三个损失函数 L_d-rec.
最后, 单句建模和编辑建模可以融合成一个统一的优化问题通过端到端的方法进行训练.
实验分析
我们使用 Yelp 上的用户评论和打分数据进行实验. 实验分为两个部分.
第一个实验主要是为了验证给定任意数值的句子编辑能力. 我们通过 MAE 和 Edit Distance 两个指标来衡量句子编辑的性能. 实验结果如表 1 所示:
表 1:Yelp 数据集上的任意数值指导下的句子改写
从表 1 中可以看出我们的模型编辑的句子质量更高, 编辑后的句子的预测数值与给定的目标数值更接近. 而且能够保持原句的主要内容.
为了更加形象的说明句子编辑的效果, 我们抽样了一些样本进行展示, 如表 2:
表 2: 序列编辑的示例展示
另外, 我们注意到有相关做文本风格转换的研究工作可以进行句子双向生成, 即给定负向情感句子生成正向情感句子, 或反之. 所以, 为了与该类模型比较句子编辑的效果, 我们设计了第二个实验与之对应, 即从数值 1 的句子生成数值 5 的句子, 或相反. 我们用准确率来评价改写的好坏. 实验结果如表 3 所示:
表 3 : 双向文本风格转换效果
实验结果说明我们的模型在双向文本风格转换实验中可以获得更高的准确率.
此外, 生成的句子质量很难以进行客观评测, 所以我们引入了人工评测的结果来衡量句子内容保持度以及句子质量的高低. 人工评测结果如表 4 所示:
表 4 : 人工评测结果
可以看出我们的模型可以最大程度的保持原句的内容, 并且句子依然保持很好的流畅度.
来源: http://www.mzh.ren/quase-sequence-editing-under-quantifiable-guidance.html