此前 iOS15 系统更新, 有一个功能引发了不小的关注, 那就是内置图片翻译.
用户可以直接选择照片中要翻译的文本, 查看翻译结果. 据说苹果还更新了翻译模型, 提升了翻译效果.
这就刺激了, 如果说几年前神经机器翻译的出现, 是许多人类翻译的噩梦, 那这个系统内置翻译图片功能的推出, 大概能让不少专业翻译软件睡不着觉吧.
就拿我这种需要经常阅读英文资讯的人来说, 时常遇到 PDF 文献, 图片类内容, 需要第三方软件拍照识别后进行翻译. 如果 iOS15 直接可以识别图片, 不就省略了几个步骤吗? 简直懒人福音.
那么问题来了, 翻译好不好, 重点在 "疗效",iOS15 的图片翻译能力已经强大到能替代专业翻译软件了吗? 要知道, 信达雅的中文表达一直是 NLP 领域的难题, 一家带着硅谷基因的科技公司, 真能完成地道的中英互译?
本着实践出真知的态度, 我们准备了多道考题, 并选取了口碑和用户数都相对突出的有道词典 App 来参与横向评测, 以此来摸索 iOS15 图片翻译的真实水平.
真心话与大冒险: 图片翻译三步曲
针对翻译功能的专业评测有不少, 各种指标诸如短中长句都有详细的评测标准与规范, 不过作为普通用户, 我们决定从大家日常使用图片翻译的具体场景和步骤中去进行测评.
一般来说, 图片中的文字要被精准地翻译出来, 需要至少具备三种能力:
第一步: 火眼金睛,"看得准".
图片翻译想要满足用户需求, 首先考验的不是 NLP 技术, 而是 OCR 能力. 只有识别得准, 才能为后续翻译奠定基础, 这一能力的关键考核指标, 就是字准率.
从操作上来看, 苹果 iOS15 采用内置方式, 可以直接选择照片中要翻译的文本, 查看翻译结果; 有道词典需要打开 App 中的拍照识别功能. 前者在使用上要更方便一些. 不过到了识别环节, iOS15 就有些拉胯了.
我们找了一个英文短句, 一个英文长句和一个中文长句. 结果显示, 在英文字准率上, 苹果和有道差距不大.
比如, 有道 100% 识别出了原文 "Do me a favor, can you look for my credit card.I don't find it."
iOS15 的结果是: Do me a favor.,can you look for my credit card,I don find it.
尽管苹果将 don't 识别成了 don, 但不太影响阅读, 准确率还是可以接受的.
换个英文长句测试一下, 下面这张图片, 有道的识别结果是:
One bad chapter doesn't mean my story is over until you find a new chapter which you think it's right, 达到了 98.96% 的字准率.
iOS15 的结果是:
One bad chapter t mean my story is over until you find chapter which you think it'l S right.
将 it's right 识别成了 it'l S right, 可能会影响后续的语义理解.
到了中文字准率测试, 有道和苹果就拉开差距了. 比如下面这张图片:
有道是 100% 完整识别, 苹果 iOS15 则将 "雨水" 的雨,"一系列" 的一, 没有识别出来, 倒数第二段的 "纪念祖" 三个字也被遗漏了, 直接影响阅读体验和用户理解.
综合来说, 英文字准率二者差距不大, 有道略胜一筹; 中文字准率上, 有道能做到 90% 以上的精准识别, 苹果 iOS15 只有 79%, 有道优势明显.
造成这一差距的原因, 可能是有道词典在图片翻译上积累更多.
早在 5 年前有道就开始尝试开发图片翻译功能, 后续又通过有道智云为许多主流手机厂商提供相关能力, 许多用户会在各种光照条件, 各种用法下使用, 因此积累了大量训练语料, 通过不断迭代段落分析, 图片检测, 图像偏移角度检测, 语种检测等算法, OCR 能力自然能得到针对性优化.
加上有道作为中国公司, 对中文母语的理解更深, 而苹果 iOS15 刚刚开始广泛推广, 在现实场景下的中文识别还有不足, 也是可以理解的.
第二步: 心如明镜,"搞得懂".
图片文本识别完成后, 就需要神经机器翻译来将其转化成相应的译文. 中英文都是语料相对丰富的语种, 因此对其理解能力的要求也更高.
所以我们选择了两个比较细节的点来考察:
一是时态.
原文 "是的, 今天出去玩", 含有计划的意思.
有道翻译为 "Yes.we're going out today";
苹果的译文是: Yes.go out today.
显然, 有道采用了 "be going" 一般将来时, 更准确地理解了原文的意图, 表达出了计划, 安排, 打算做某事的意思, 苹果的译文则没能体现出计划的状态.
二是单复数.
英文单词的单复数常常承担着截然不同的释义, 如果无法准确识别可能会让译文与原意南辕北辙.
比如这个 "1200 square", 有道词典翻译为 "1200 平方", 苹果 iOS15 的翻译是 "1200 个广场".
square 在单数状态下指的是平方单位, 苹果的译法很容易让读者产生歧义.
当然, 在整体理解上, 有道和苹果的中英互译水平都能满足基本的阅读需求.
比如这个长句:
He puts down $20,000 as a deposit on the beautiful $200,000 villa believing that his investment would increase over time.
有道的译文: 他为价值 20 万美元的漂亮别墅付了 2 万美元的定金, 相信他的投资会随着时间的推移而增加.
iOS15 的译文: 他存了 2 万美元作为这栋美丽的 20 万美元别墅的押金, 相信他的投资会随着时间的推移而增加.
目前, 图片翻译的中文互译, 有道和 iOS15 基本都表现出了较强的理解能力. 对一些单词用法, 表达习惯上的细节洞察有差距, 这背后还是语料积累, 模型选择, 性能优化等的差异.
第三步: 舌灿莲花,"说人话".
中文翻译, 很多人的黄金指标就是 "信达雅", 指的是译文要准确, 不偏离原文; 要通顺, 语法结构符合习惯; 还要优雅, 用语地道而富含文采.
神经机器翻译发展到今天, 能否满足这一要求呢? 有道和苹果这两个带有不同语言基因的翻译平台, 恰好可以调戏一番.
先来一道送分题:
来源: https://new.qq.com/omn/20210722/20210722A0EQ3R00.html