前记
我们身边有很多鲜为人知的职业, 有些你可能知道, 有些你可能不知道, 更有一些, 你或许听过, 却从不明白它到底是做什么的.
速录师, 就是这样的一个职业. 很多人觉得这个职业简单, 只要会打字就行, 其实不然. 要做一名合格的速录师, 不仅需要具备文化素质, 心理素质, 速度素质, 更需要经过考核, 获得《速录师职业资格证书》才能上任. 心理和能力的考核 + 300 字 / 分的速度 + 97% 以上的准确率, 再加上考虑口述言语间的逻辑关系, 这样加起来的速录, 你还会觉得简单么?
现在, 类似速录师这样你还尚未了解的职业已经在被逐步取代. 以速录领域最艰深的律法行业为例, 浙江高院早已在司法语音大数据解决方案的帮助下取代了传统的书记员. 庭审现场, 记者亲测系统同步记录延迟不超过 500 毫秒, 并能不时进行自动纠错, 准确率达 97% 以上. 那么, 究竟是什么产品才具有这样强悍的实力?
应用场景
阿里云智能语音交互是基于语音识别, 语音合成, 自然语言理解等技术, 赋予产品 "能听, 会说, 懂你" 式的智能人机交互体验. 目前, 阿里云智能语音交互已在庭审速记, 线路检测, 智能客服, 语音质检, 直播字幕等场景落地.
庭审速记: 法庭庭审全程实时记录, 已覆盖 300 + 法院.
例: 浙江省全省法院.
线路检测: 全量通话转文本, 发现可能存在的电话诈骗.
例: 智检云 SaaS 产品.
智能客服: 传统客服向智能客服转型.
例: 蚂蚁金服 95188 热线, 智能客服机器人.
语音质检: 语音转文本后对服务过程进行质检.
例: 阿里集团客服, 合众人寿.
直播字幕: 实时直播字幕与监控.
例: 云栖大会实时字幕; 奥点云的落地合作.
语言模型自学习工具
语言模型自学习是阿里云智能语音交互在全球首创的智能语音自学习平台, 是能够帮助用户零基础训练业务的专属语音模型.
在业务领域内通常会有一些特有的词, 默认识别效果较差时候可以考虑使用泛热词 / 类热词, 根据不同的业务场景具体选择. 通过将这些词添加到词表, 就可以达到改善这部分词的识别结果.
如果在领域已经积累了比较丰富的历史数据, 那么就可以使用这些历史数据对语言模型做定制的优化. 通过使用语音自学习工具, 可以通过可操作的界面上传训练语料文本, 并选择对应领域的语言基础模型, 通过对训练语料做模型训练, 可以有效提高该场景的语音识别率, 尤其是专有名词和文本中的高频词汇, 有较好的优化效果.
智能互动大屏
智能语音交互的一大应用是包装成在各类公众空间可实现人机交互的智能大屏. 其最大的特色是在强噪声环境下的语音识别, 同时具备免唤醒, 长句子流式理解的能力. 2018 年 3 月, 全球第一台地铁语音售票机正式落地上海南站和汉中路地铁站, 在地铁真实嘈杂环境下, 语音识别准确率超过 96%, 在解放人手的情况下完成了 10 秒完成取票的操作, 而正常情况下人工取票一般需要 30 秒. 目前, 智能互动大屏的其主要适用场景有:
大交通: 地铁售票, 问询, 机场, 景区, 火车站问询;
新零售: 点餐, 试衣镜, 试装镜, 商超导览导购;
政企大厅: 政务, 运营商, 银行, 保险大厅问询;
其他: 医院分诊挂号和科室导航, 图书馆找书.
来源: https://yq.aliyun.com/articles/701511