机器学习以及自然语言处理技术的进步, 开启了人与人工智能进行语音交互的可能, 人们透过对话的方式获取信息与机器进行交互, 将不再只是存在科幻情结当中语音交互是未来的方向, 而智能音箱则是语音交互落地的第一代产品
一语音交互流程简介
AI 对话所需要的技术模块有 4 个部分, 分别为:
自动语音识别(Automatic Speech Recognition, ASR)
自然语言理解(Natural Language Understanding, NLU)
自然语言生成(Natural Language Generation, NLG)
文字转语音(Text to Speech, TTS)
以叮咚开发文档中的语音交互流程图来看 Ai 对话技术的主要路径:
从上图中可以看到, 用户与设备之间的交互, 主要是采用语音方式处理和完成的
二语音交互流程设计
一次完整的语音交互流程, 成功的语音对话, 通常是有以下几个阶段
1. 交互流程的核心意图
所谓意图, 表示用户在使用应用时所做的动作(譬如: 问一个问题或发送一条指令), 这些意图代表了应用的核心功能
如果应用成功地识别了用户意图, 则需要在完成业务动作后, 将结果反馈给用户; 如果应用无法识别用户意图, 则需要给用户友好的提示, 指导用户使用
用户: 七星彩的开奖时间是什么时候?
Ai: 体育彩票七星彩每周二周四和周日开奖
2. 如何识别意图语义解析
对语音识别结果进行分析理解, 简单来说就是将用户语音输入映射到机器指令它可能定义了一组包含指定的单词或短语的语法结构, 用户通过说出满足这种结构的语句, 来调用意图
用户: 我要 {听} {周杰伦} 的{稻香}
Ai: 稻香. mp3
3. 如何处理意图云端交互
调用意图的结构化请求, 向服务器请求处理后做出反馈响应 通俗来讲该流程主要处理用户的请求, 解决用户问题的答案
4. 上下文意图的处理 - 对话管理
在用户进行自然对话时, 可能会因为表达事情的复杂度时间地点效率等, 产生具有脉络的对话过程, 所有的对话元素会编织在一个连贯的线性对话中
用户: 明天北京天气如何?
Ai: 明天北京天气晴, 温度 16 到 23 度
用户: 后天呢?{后天北京天气如何?}
Ai: 后天北京天气晴, 温度 17 到 28 度
5, 语言合成模块 组织语言
根据解析模块得到的内部表示, 在对话管理机制的作用下生成自然语言句子 同时将生成模块生成的句子转换成语音输出(把回答的机器语言再转换成 口语语言)
三 中文自然语言处理的关键技术
1 词法分析
词法分析包括词形和词汇两个方面一般来讲, 词形主要表现在对单词的前缀后缀等的分析, 而词汇则表现在对整个词汇系统的控制在中文全文检索系统中, 词法分析主要表现在对汉语信息进行词语切分, 即汉语自动分词技术通过这种技术能够比较准确的分析用户输入信息的特征, 从而完成准确的搜索过程它是中文全文检索技术的重要发展方向
2 句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析, 目的是识别句子的句法结构, 实现自动句法分析过程其基本方法有线图分析法短语结构分析完全句法分析局部句法分析依存句法分析等
3 语义分析
语义分析是基于自然语言语义信息的一种分析方法, 其不仅仅是词法分析和句法分析这样语法水平上的分析, 而是涉及到了单词词组句子段落所包含的意义其目的是从句子的语义结构表示言语的结构中文语义分析方法是基于语义网络的一种分析方法语义网络则是一种结构化的, 灵活明确简洁的表达方式
4 语用分析
语用分析相对于语义分析又增加了对上下文语言背景环境等的分析, 从文章的结构中提取到意象人际关系等的附加信息, 是一种更高级的语言学分析它将语句中的内容与现实生活的细节相关联, 从而形成动态的表意结构
5 语境分析
语境分析主要是指对原查询语篇以外的大量空隙进行分析从而更为正确地解释所要查询语言的技术这些空隙包括一般的知识, 特定领域的知识以及查询用户的需要等它将自然语言与客观的物理世界和主观的心理世界联系起来, 补充完善了词法语义语用分析的不足
四 Ai 对话目前存在的问题
人机对话过程中, 用户难免会出现表达失误的情况, 导致机器对用户语言理解出现偏差, 在这时, 纠错机制对机器而言则非常重要, 如缺少这个机制, 用户需要花费相当长的时间将其意图解释清楚, 相应的用户体验也会十分糟糕另一方面, 虽然可以很好的识别语音, 但是却不能理解你的对话目的, 语义理解上有偏差
当前, 包括 Alexa 在内的国内外智能音箱之所以没有表现的那么智能, 出现了人工智障的嘲笑也是因为在以上两方面没有处理太好
因此语音交互最终需要解决的关键问题是 歧义消解问题, 和 未知语言现象的处理问题
五 智能语音助手背后的生态服务
Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能, Google Assistant 以及 Google Home 之所以被人看好是在于其 Android 后发优势所具备的开放性
智能语音助手类的产品要想在中国落地开花, 它不仅仅是简单的语音识别那么简单, 还有集成服务, 一整套的中文生态内容服务等配套设施, 是一种涵盖很多基础能力的生态系统
未来基于语音交互的语义技能, 必须要能够达到几万几十万甚至上百万种的时候, 才能促使语音交互时代操作系统真正走向成熟, 未来语音交互产品的形态和样式也将越来越丰富
让我们期待未来 Ai 语音交互的蓬勃发展, 期待未来对技术的无限挑战!
来源: https://juejin.im/post/5a7bc01d5188257a7450a1d9