谷歌手机输入法可以离线语音识别了! 模型精度远超经典 CTC

今天, 谷歌发布了一个端到端的移动端全神经语音识别器, 来处理 Gboard 中的语音输入. 该新型语音识别器可内置在手机设备中, 离线状态时依然可用. 更重要的是, 它可以实现字符级实时输出, 对用户的语音输入提供快速及时的响应.

2012 年, 在深度学习技术的帮助下, 语音识别研究有了极大进展, 很多产品开始采用这项技术, 如谷歌的语音搜索. 这也开启了该领域的变革: 之后每一年都会出现进一步提高语音识别质量的新架构, 如深度神经网络 , 循环神经网络 , 长短期记忆网络 , 卷积神经网络等等. 然而, 延迟仍然是重中之重: 自动语音助手对请求能够提供快速及时的反应, 会让人感觉更有帮助.

今天, 谷歌发布了一个端到端的移动端全神经语音识别器, 来处理 Gboard 中的语音输入. 在相关论文《Streaming End-to-End Speech Recognition for Mobile Devices》中, 谷歌研究者展示了一个使用 RNN transducer (RNN-T) 技术训练的模型, 它非常紧凑, 因而可以内置在手机设备中. 这意味着不再有网络延迟或 spottiness, 新的语音识别器一直可用, 即使是离线状态也可使用. 该模型以字符级运行, 因此只要用户说话, 它就会按字符输出单词, 就像有人在你说话的时候实时打字一样.

来源: http://www.tuicool.com/articles/myUNba7

与本文相关文章

暂无,快来抢沙发吧！