新知榜官方账号
2023-09-19 16:38:50
阿里达摩院语音实验室的个性化语音合成技术,能够让语音合成更具表现力,韵律、音质和情感上都更加贴近真人。如今,在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下,对TTS的要求除了需要将文本变成对应的语音,也需要将合成语音变得更具有表现力,韵律、音质和情感上都更加贴近真人。本文介绍了阿里达摩院语音实验室个性化语音合成技术的四部曲流程。
首先需要明确想要的声音是什么样子的,达摩院语音实验室中称之为声音画像,“像十八九岁的少女,有一口标准的普通话,音色清甜、具有运动感,时尚活泼,如行走的张子枫”,根据这样的描述,选择多个发音人进行一两句特定语句的试音。与传统的发音人直接挑选不同,达摩院语音实验室采用个性化语音合成技术(PTTS)进行合成效果的评估,根据发音人仅有的一两句试音,来合成其他特定文案的音频,而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。
为了保证音频效果稳定和高质量,达摩院语音实验室把目标发音人请到符合录制要求的录音棚中。而后,根据冬奥主持素材和通用场景的内容,通过音素覆盖的计算设计出发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异,在录制的过程中,需要录音指导,在录音完成后,进行数据质检。音频的质量决定了定制声音的上限,为了保证得到的录音音频能够有较好的一致性,与传统的人工质检不同,达摩院语音实验室根据音频特征进行自动化的风格一致性筛选,且经过筛选音频的数量也能保证音素覆盖。
经过筛选后的音频可以通过ASR进行自动标注,但同时也需要人工检验和调整。
为了达到高表现力的定制效果,达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然,HIFI-TTS模型能够使得合成音频音质更优,情感TTS则丰富了说话人的情感和说话风格。最终结合三者,冬冬能够实现主持人和脱口秀的两种风格自由切换,在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后,冬冬的声音依托于阿里云,可供冬奥会期间全天候时长的语音播报使用。用户想要的任何精品声音的定制都可以通过这四部曲来进行。
阿里达摩院语音实验室还提供了不同层级的语音定制,除了像冬冬一样,精品的声音有一听可知的定制效果;还有能保证少量音频即可完成较好的合成效果,普通人也能定制属于自己的TTS音色,即个性化人声定制。
展望从标准定制到个性化定制,着力高表现力的合成语音,是达摩院语音实验室未来技术重点打磨的方向之一。通过使用隐式韵律建模,提高单句文本时的韵律起伏和韵律还原度;对长文本建模,尤其加强句首、句尾的韵律连续性和彼此影响,增强段落文本时的上下文韵律;融入例如磕绊、重复、语气词等,提升合成音频真实感,以期实现稳定可靠的高采样率高音质高表现力的合成效果。
内容来源:阿里语音AI,内容作者:何挺
更多阿里云研究院出品的关于阿里巴巴集团数字化实践、云计算、大数据、人工智能、物联网等前沿科技的最新趋势研究报告,请您关注“阿里云研究”微信公众号。
相关工具
相关文章
相关快讯
推荐
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53