在人工智能语音翻译领域, 噪音是必须要面对的主要挑战之一. 设备或许能够识别出实验室或会议室里的语音, 但在日本京都站与我 (本文作者马利克. 科恩(Marek Kohn)) 交谈的怀贝尔教授 (Professor Waibel) 周围, 我仍能听到那种背景噪音. 我正努力用英语跟上他的思路, 但潦草的线条提醒我, 我们相距近 1 万公里, 即使我们说的是同一种语言, 这段距离仍然成为交流的重大障碍.
正在工作的同声传译人员
毕竟, 我们还没有实现科幻小说中描述的那种无缝交流. 在这些描述中, 怀贝尔教授可以用其母语德语作出解释, 而我听到的却是英语. 或许, 他也可以不用手就能与周围的日本人进行无缝交谈, 即使所有人都在用母语, 也不影响他们之间的对话.
怀贝尔是德国卡尔斯鲁厄理工学院的计算机科学教授, 他和同事们已经可以用德语授课, 学生们则可以通过电子翻译器用英语听课. 该系统生成学生可以在笔记本电脑或手机上阅读的文本, 因此这个过程有点类似于字幕. 不过, 这有助于讲师将课程讲得更清楚, 不需要担心背景差异.
人工智能语音翻译的想法由来已久.
怀贝尔同时也是美国卡内基梅隆大学的计算机科学教授, 他甚至可以被称之为人工语音翻译的发明者. 1978 年, 他在麻省理工学院 (MIT) 提出了这个想法. 道格拉斯. 亚当斯 (Douglas Adams) 差不多也是在同一时期想到了这个主意.
《银河系漫游指南》(The Hitchhiker's Guide to the Galaxy)中有一种名为" 巴别塔鱼 "(Babel)的生命形式, 当把它放在耳朵里时, 听者能够听懂宇宙中的任何生命种族的语言. 这代表了一种技术爱好者渴望已久的设备, 比如便携式语音通信设备和可以挂在墙上的平板电视, 这是一种早就应该存在的东西, 且总有一天会成为现实.
1991 年, 怀贝尔构建了第一个语音翻译系统, 该系统拥有 500 个单词的词汇量, 可以在大型工作站上运行, 需要几分钟来处理所听到的内容. 他承认:"当时还没有为迎接语音翻译的黄金时代做好准备." 如今, 随着人工翻译和语音识别技术的不断进步, 类似于巴别塔鱼的原型设备已经开始出现.
谷歌使用 Google Translate, 在 Pixel 耳机中加入了翻译功能, 它还可以通过智能手机应用进行语音翻译. Skype 有 Translator 功能, 可以处理 10 种语言. 有些规模较小的公司, 如总部位于纽约布鲁克林的初创公司韦弗利实验室(Waverly Labs), 已经开发出了耳机翻译器. 科技媒体上的评论可以被合理地总结为 "实际上还不错".
目前可用的系统已经证明了这一概念, 但在现阶段, 它们似乎被视为引人注目的新奇事物, 而不是朝着怀贝尔所称的 "建立语言透明社会" 的方向迈进. 推动人工语音翻译的一个主要发展趋势是, 鼓励人们使用该技术进行交流. Google Translate 的产品总监巴拉克. 图罗夫斯基 (Barak Turovsky) 表示:"我们通常在语音设备的范例中处于非常早期的阶段, 但它发展得非常迅速, 翻译将是这段旅程的关键部分之一."
上个月, 谷歌为其家庭设备引入了解释器模式, 只要说:"嘿, 谷歌, 做我的法语翻译器", 就能激活语音, 并在智能显示屏上进行文本翻译. 谷歌建议将酒店登记作为可能的用例. 这可能是个明显的例子, 它可以充当 "旅行者英语", 无论是以英语作为母语还是其他语言的人都可使用.
如果你的手机上有翻译软件, 你已经可以这么做了, 尽管它的屏幕和扬声器都很小. 这种简单的公共互动在很大程度上利用了这款应用的对话功能. 但是另一个流行的用例是图罗夫斯基所谓的 "浪漫". 数据日志揭示了 "我爱你" 和 "你有一双美丽的眼睛" 等语句的受欢迎程度. 其中很多可能并不代表什么新东西. 毕竟, 几十年来, 搭讪语始终是标准常用语手册中的内容.
韦弗利实验室利用聊天功能为其在 Indiegogo 上的融资活动做宣传. 该公司创始人兼首席执行官安德鲁. 奥乔亚 (Andrew Ochoa) 在一段视频中讲述了自己的灵感来源: 当时他在度假时遇到了一名法国女性, 但无法与她很好地沟通, 于是他产生了做翻译的想法. 尝试使用翻译应用让人产生 "可怕的体验". 手机会碍手碍脚, 但耳机不会挡住脸. 这段视频展示了可能的情况: 他向法国女人展示耳机, 然后他们一起去喝咖啡, 观光. 演示非常成功的, 奥乔亚筹集到 440 万美元资金, 是其最初目标的 30 倍.
韦弗利实验室的 Pilot 耳机 (红色和白色) 与谷歌的 Pixel 耳机(黑色)
一位顾客说, 韦弗利实验室的 Pilot 耳机使他能够第一次和女朋友的母亲通话. 有些人甚至说, 这使他们能够与配偶交谈. 奥乔亚指出说:"每隔一段时间, 我们就会收到有些人发来的电子邮件, 说他们正在用这种设备和讲西班牙语的妻子交谈. 我真搞不懂他们当初是怎么走到一起的!" 我们可能会猜测, 他们是通过互联网和婚介机构相识相恋的. 奥乔亚承认,"在你通过耳机找到真爱之前, 这项技术还需要进一步改进, 但距离目标已经不再遥远."
许多早期的采用者将 Pilot 耳机用于完全不够浪漫的用途, 并将其用于组织机构中. 韦弗利实验室现在正在为专业用例开发新的模型, 该模型需要在语音识别, 翻译准确性和提供译文时间方面提高性能. 奥乔亚称:"职场人士在谈话中往往不太有耐心."
新版本还将对卫生设计进行改进, 以克服 Pilot 耳机最缺乏吸引力的地方. 谈话时, 双方都需要佩戴 Pilot 耳机. 奥乔亚说:"我们发现, 在与陌生人共用耳机时存在障碍." 这可能并不出人意料之外. 如果耳机翻译变得足够普及, 陌生人的耳朵里可能已经有了自己的耳机, 那么这个问题就会得到解决. 这种情况是否会发生, 以及多快发生, 可能并不完全取决于耳机本身, 而是取决于语音控制设备和人工翻译的普及程度.
在这方面, 主要推动力似乎是进入亚洲新兴市场. 谷歌估计, 互联网上 50% 的内容是英语, 但世界上只有 20% 的人说英语. 图罗夫斯基说:"如果你看看互联网使用率增长迅猛的地区, 比如亚洲国家, 那里的大多数人根本不懂英语. 因此, 打破语言障碍对每个人来说都是一个重要的目标, 显然对谷歌来说也是如此. 这就是为什么谷歌在翻译系统上投入这么多资源的原因."
怀贝尔也强调了亚洲的重要性, 指出语音翻译在日本和中国已经真正起步. 不过, 还有很长的路要走. 翻译需要同步进行, 就像电视上的同声传译翻译需要与外国政客讲话时的步调一致, 而不是让发言者每说几句话就要停顿一下, 等着翻译表现. 在无法上网的情况下, 它需要能脱机工作, 并解决人们对云端积累的私有语音数据量的担忧, 这些数据已被发送到服务器进行处理.
怀贝尔建议, 系统不仅需要应对诸如噪音等物理方面的挑战, 还需要具有社会意识, 比如了解人们的举止, 并恰当地与人交谈. 当我第一次给怀贝尔发电子邮件时, 我意识到他是一位德国教授, 而且欧洲大陆的传统要求对学术地位给予严肃的尊重, 我犯了个偏颇的错误, 称他为 "亲爱的怀贝尔教授".
正如我所料, 他用国际标准英语回答:"你好, 马利克." 对礼仪敏感的人工翻译可以让人们不再需要了解不同的文化规范, 它们将促进交流, 同时减少误解. 与此同时, 它们可能有助于保护当地的风俗习惯, 减缓与国际英语相关的习惯的传播.
不过, 教授和其他专业人士不会将语言意识外包给软件. 如果这项技术成熟到无缝, 无所不在的程度 -- 简而言之, 就像巴别塔鱼, 那它实际上会增加语言技能的价值. 自动翻译将提供一种商品, 即基本的, 实用的信息, 帮助人们购买东西或找到目的地. 它是否会帮助人们管理家庭生活或恋爱关系, 这是个有待探讨的问题. 但这是值得注意的一种可能, 它可能会克服移民后几代人之间经常出现的语言障碍, 那使得孩子和祖父母没有共同的语言.
然而, 无论如何使用人工智能语音翻译技术, 它永远不会像真正的巴别塔鱼那么好. 即使语音变形技术能模拟说话人的声音, 但它们的嘴唇动作不会匹配, 而且看起来就像在配音电影里. 这种对比将强调共享语言的价值, 以及学习它们的价值.
努力学习别人的语言是一种承诺, 是被视为值得信赖的象征. 分享一门语言还可以促进归属感和社区意识, 就像与那些把英语作为通用语的国际科学家一样, 而他们的前辈曾使用拉丁语. 学习顾客语言的移民店主不仅使销售更容易, 他们还显示出希望与客户所在社区拉近距离的意愿, 并礼貌地宣称自己已经融入其中.
当机器翻译成为一种无处不在的商品时, 人类的语言技能将会受到重视. 掌握多门语言的人总是比那些依赖于设备的人更有优势, 就像那些有数字头脑的人比那些需要使用计算器的人有优势一样. 虽然对一种通用语言的实际需求将会减少, 但分享这种语言的社会价值将会持续存在. 软件永远不会取代语言知识所带来的那种微妙而重要的理解体验. 毕竟, 要从纷扰中找出细微差别, 总是需要这些知识.
来源: http://ai.51cto.com/art/201902/592368.htm