访问:
阿里云 - 最高 1888 元通用代金券立即可用
KAN-TTS 的基本框图
构建多发音人语音合成系统的方式
多发音人模型实际训练过程
据悉, KAN-TTS 由达摩院机器智能实验室自主研发, 深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术, 从多个方面改进了语音合成. 传统语音合成定制需要 10 小时以上的数据录制和标注, 对录音人和录音环境要求很高. 从启动定制到最终交付, 项目周期长成本高.
阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法, 将语音合成定制成本降低 10 倍以上, 周期压缩 3 倍以上. 也就是说, 用 1 小时有效录音数据和不到两个月制作周期, 就能完成一次标准 TTS 定制.
此外, 这使得普通用户定制 "AI 声音" 的门槛更低. 只需 手机 录音十分钟, 就能获得与录制声音高度相似的合成语音.
来源: http://www.tuicool.com/articles/nQ7bauV