可能是职业习惯,《流浪地球》中有一幕让小编印象非常深刻: 刘培强戴着耳机和俄罗斯宇航员交流, 两人各自说着母语, 然后被实时同步翻译, 毫无障碍不说, 甚至拉家常开玩笑都没问题. 这种黑科技, 太好用了叭!
最近谷歌的一项研究不仅实现了这项黑科技, 而且比起电影里的机器人声音, 谷歌的模型还可以模仿源说话者的声音生成目标语音. 这么说吧, 利用这个模型, 当你说英文时, 可以直接输出你 "讲" 的西班牙语.
这一神奇的模型叫做 Translatotron, 它不仅可以实现端到端的语音翻译, 还可以比传统的串联模型更快地完成翻译, 并避免一些复杂过程所导致的「并发症」.
在过去的几十年里, 语音到语音翻译系统的发展目标一直是帮助使用不同语言的人互相沟通. 这种系统系统通常可以分为三个部分: 将源语音转换为文本的自动语音识别, 将得到的文本翻译为目标语言文本的机器翻译以及从翻译文本生成目标语言语音的文本 - 语音合成(TTS). 这种将任务分为几个阶段的级联模式一直以来都非常成功, 支撑了很多商业语音到语音的翻译产品, 包括谷歌的 Google Translate.
然而, 这种 "三步走" 的方法能否再简化一下?
答案是肯定的. 近日, 谷歌提出了一种新的转换系统 --Translatotron, 可以实现源语音到目标语音的直接转换, 还能保留源语音的声音特征. 相关研究发表在 "Direct speech-to-speech translation with a sequence-to-sequence model" 论文中.
这一新系统基于单个注意力序列到序列模型, 无需依赖中间的文本表征就能直接实现语音到语音的翻译. 该系统没有将任务分为多个阶段, 因此增加了一些传统级联系统无法比拟的优势, 如推理速度更快, 自然而然地避免识别和翻译之间的复合误差, 翻译后更容易保持源语音的声音特征以及更好地处理无需翻译的单词(如名字和专有名词).
Translatotron
端到端语音翻译模型最早出现在 2016 年, 那时, 研究者展示了使用单个序列到序列模型实现语音到文本翻译的可行性. 2017 年, 谷歌表明, 这种端到端模型的表现优于级联模型.
最近, 研究者们提出了很多端到端语音到文本翻译模型的改进方法, 包括谷歌在利用弱监督数据上所做的努力(参见 "Leveraging Weakly Supervised Data to Improve End-to-End Speech-to-Text Translation").Translatotron 又往前推进了一步, 无需依赖中间文本表征就能实现不同语言之间的语音翻译, 这是之前的级联系统所无法做到的.
Translatotron 基于一个序列到序列的网络, 该网络将源声谱作为输入, 生成目标语言的翻译内容声谱. 它还利用了另外两个单独训练的组件: 一个神经语音编码器(vocoder), 可以将输出声谱转化为时间域波形; 以及一个扬声器编码器(speaker encoder)(可选), 可用于在合成翻译语音中保持源语音的声音特征, 如下图所示.
Translatotron 的模型架构.
在训练过程中, 序列到序列的模型利用一个多任务目标来预测源和目标转录本, 同时生成目标声谱. 然而, 推理期间并不使用任何转录脚本或其他中间本文表征.
性能
虽然简化了翻译流程, 但翻译质量仍然是很重要好的问题. 谷歌研究人员测试了 Translatotron 的翻译水平, 以 BLEU 分数为标准(该分数是以语音输出再转录为文本计算的). 测试发现新方法目前仍无法达到传统方法的业内最佳水平, 但已高于一些基线标准, 实验证明了端到端直接语音翻译的可行性.
对于端到端的语音模型而言, 如何训练是一个大问题 -- 目前多国语言语音对照数据集还很少. 谷歌的研究中使用了语音合成的方法, 把 Spanish-English MT 数据集中对应的文字生成了语音用于训练. 此外, 研究人员也找到了容量为 12 万对的 Fisher 西班牙语 - 英语语音数据集进行模型训练.
谷歌还放出了一些音频剪辑, 展示了 Translatotron 的直接语音到语音翻译结果(见后文).
保留声音特征
结合 speaker 编码器网络, Translatotron 能够在翻译后的语音中保留源说话者的声音特征, 使得翻译后的语音听起来更加自然, 和谐. 这项功能利用了谷歌之前关于 speaker 验证 和 multispeaker 文本语音合成 技术的研究.
speaker 编码器在 speaker 验证任务上预训练, 学习根据简短的示例表达编码说话者的声音特征. 根据这种编码调节声谱图解码器, 模型可以合成具有说话者相似特征的语音, 即使内容为不同的语言.
下面的音频片段展示了 Translatotron 将源说话者的声音迁移到目标语音的效果. 在这个示例中, Translatotron 给出的翻译结果比基线级联模型更准确, 同时还保留了源说话者的声音特征. 保留源说话者声音的 Translatotron 输出使用的训练数据比使用标准声音 (不保留源说话者声音) 更少, 所以它们生成的翻译略有不同.
音频地址: https://google-research.github.io/lingvo-lab/translatotron/#conversational
结论
谷歌表示, 据目前所知, Translatotron 是第一个可以直接实现从一种语言到另一种语言语音转换的端到端模型. 它还能在翻译后的语音中保留源说话者的声音. 谷歌希望这项研究可以作为今后端到端语音翻译系统研究的起点.
论文: Direct speech-to-speech translation with a sequence-to-sequence model
论文地址: https://arxiv.org/abs/1904.06037
摘要: 谷歌展示了一种基于注意力的序列到序列神经网络, 该网络可以直接实现从一种语言到另一种语言的语音转换, 而无需依赖中间的文本表征. 该网络是端到端训练的, 学习将源语的语音声谱图映射到目标语声谱图中, 翻译内容也是对应的.
该模型还能够使用源说话者的声音合成翻译语音. 谷歌在两个西班牙语 - 英语语音翻译数据集上进行了实验, 发现该模型的性能略低于语音 - 文本翻译模型和文本 - 语音合成模型的级联基线模型, 表明了该方法在此极具挑战性的任务中是可行的.
参考内容:
- https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html
- https://venturebeat.com/2019/05/15/googles-translatotron-is-an-end-to-end-model-that-mimics-human-voices/
来源: http://www.tuicool.com/articles/iaErmyi