打造高表现力定制声音，阿里达摩院语音实验室的四部曲

新知榜官方账号

2023-09-19 16:38:50

打造高表现力定制声音，阿里达摩院语音实验室的四部曲

阿里达摩院语音实验室的个性化语音合成技术，能够让语音合成更具表现力，韵律、音质和情感上都更加贴近真人。如今，在自媒体创作视频配音以及虚拟人需要结合2D图像乃至3D建模与人交流的需求等一些新涌现的需求下，对TTS的要求除了需要将文本变成对应的语音，也需要将合成语音变得更具有表现力，韵律、音质和情感上都更加贴近真人。本文介绍了阿里达摩院语音实验室个性化语音合成技术的四部曲流程。

Step1：声音画像

首先需要明确想要的声音是什么样子的，达摩院语音实验室中称之为声音画像，“像十八九岁的少女，有一口标准的普通话，音色清甜、具有运动感，时尚活泼，如行走的张子枫”，根据这样的描述，选择多个发音人进行一两句特定语句的试音。与传统的发音人直接挑选不同，达摩院语音实验室采用个性化语音合成技术（PTTS）进行合成效果的评估，根据发音人仅有的一两句试音，来合成其他特定文案的音频，而后根据原始音频和初步合成效果进行一个综合的评估来确定目标发音人。

Step2：录制环节

为了保证音频效果稳定和高质量，达摩院语音实验室把目标发音人请到符合录制要求的录音棚中。而后，根据冬奥主持素材和通用场景的内容，通过音素覆盖的计算设计出发音人需要录制的文案。在录音人不同状态下录制的音频可能会出现较大的差异，在录制的过程中，需要录音指导，在录音完成后，进行数据质检。音频的质量决定了定制声音的上限，为了保证得到的录音音频能够有较好的一致性，与传统的人工质检不同，达摩院语音实验室根据音频特征进行自动化的风格一致性筛选，且经过筛选音频的数量也能保证音素覆盖。

Step3：数据标注

经过筛选后的音频可以通过ASR进行自动标注，但同时也需要人工检验和调整。

Step4：模型训练、调优及部署

为了达到高表现力的定制效果，达摩院语音实验室自研KAN-TTS模型能够使得韵律更加自然，HIFI-TTS模型能够使得合成音频音质更优，情感TTS则丰富了说话人的情感和说话风格。最终结合三者，冬冬能够实现主持人和脱口秀的两种风格自由切换，在自然度综合评测上98%接近原始目标发音人。得到调优后的TTS模型后，冬冬的声音依托于阿里云，可供冬奥会期间全天候时长的语音播报使用。用户想要的任何精品声音的定制都可以通过这四部曲来进行。

阿里达摩院语音实验室还提供了不同层级的语音定制，除了像冬冬一样，精品的声音有一听可知的定制效果；还有能保证少量音频即可完成较好的合成效果，普通人也能定制属于自己的TTS音色，即个性化人声定制。

展望从标准定制到个性化定制，着力高表现力的合成语音，是达摩院语音实验室未来技术重点打磨的方向之一。通过使用隐式韵律建模，提高单句文本时的韵律起伏和韵律还原度；对长文本建模，尤其加强句首、句尾的韵律连续性和彼此影响，增强段落文本时的上下文韵律；融入例如磕绊、重复、语气词等，提升合成音频真实感，以期实现稳定可靠的高采样率高音质高表现力的合成效果。

内容来源：阿里语音AI，内容作者：何挺

更多阿里云研究院出品的关于阿里巴巴集团数字化实践、云计算、大数据、人工智能、物联网等前沿科技的最新趋势研究报告，请您关注“阿里云研究”微信公众号。

本页网址：https://www.xinzhibang.net/article_detail-12439.html

寻求报道，请

关键词

分享至微信：

相关工具

IBM Watson文字转语音

Clipchamp AI旁白生成器

Clipchamp的文字转语音生成器

LALAL.AI

AI人声乐器分离和提取

Soundraw

AI音乐生成工具

Krisp

AI噪音消除工具

AssemblyAI

转录和理解语音的AI模型

中国式浪漫

中国式浪漫中国式的浪漫有着独特的韵味，充满了婉约而华贵的情感。从古至今，我们常常可以看到一些文艺作品中描绘的恋人们穿越古代的长廊，相互倾诉着深情而含蓄的爱意。这种浪漫，不单单是一种场景的表达，更多的是一种文化的传承。第一章：东方之美，婉约而华贵的爱在现代社会中，中国式的浪漫依然得以体现。例如，现代新

分类标签中国式浪漫东方之美传统与现代的碰撞

12-07 22:30

变声器电脑版哪个好用？主播同款变声器~

变声专家介绍随着吃鸡游戏大火，各路主播纷纷借助吃鸡游戏蹭热度，其中最火热的就是主播们使用变声器将男声变成女声来整蛊队友，这也让不少人在网上寻找好用且可以在吃鸡游戏里使用的变声器，那到底哪个变声器电脑版好用呢？感兴趣的小伙伴可以动动小手指接着往下滑动看看啦~~变声专家基本情况变声专家是海外软件AVVo

分类标签变声器电脑版主播变声器吃鸡游戏

11-29 16:59

人工智能“闻声识相”：如何通过声音识别人脸？

人工智能“闻声识相”：如何通过声音识别人脸？人工智能近年来发展迅速，其中“闻声识相”技术备受关注。该技术通过深度学习和跨模态检索技术，将人脸图像和语音音频片段分别输入人脸编码器网络和语音编码器网络，根据身份的平均损失为提取的特征值分配不同的权重，并过滤掉个性化样本，然后使用两级模态匹配更新神经网络参

分类标签人工智能算力算法数据闻声识相声音识别

11-29 16:58

八款AI智能软件，让你的工作效率倍增！

八款AI智能软件，让你的工作效率倍增！大家好！我叫阿志，做自媒体已有三年之久也做出了理想的成绩。今天我就分享我在用的八款AI智能软件，大部分是免费的哦。1. ChatGPTChatGPT是一款聊天机器人，不仅可以像人类一样聊天交流，还可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工

分类标签 AI智能软件工作效率自媒体

11-28 08:43

StabilityAI推出StableAudio，用于AI制作音频生成工具

StabilityAI推出StableAudio，用于AI制作音频生成工具StabilityAI是一家专注于开源AI模型的创业公司，其旗下的StableDiffusion是如今最好的图片生成AI之一（另一个是midjourney）。最近，StabilityAI又推出了StableAudio，这是一款

分类标签 StabilityAIStableAudioAI制作音频潜在扩散模型

11-20 22:15

VoiceChanger「变声器」——让你的声音变得与众不同

VoiceChanger「变声器」是一款充满趣味性的手机应用程序，它提供了丰富多样的变声效果选择，只需轻点一下，你就可以轻松变换声音。从小萝莉到御姐音，再到神秘的幽灵和酷炫的机器人，只要你敢尝试，你的声音就可以变得与众不同。而且，它的界面设计独具匠心，简单又有趣，让变声过程变得更加乐趣无穷。除了给声

分类标签 VoiceChanger变声器语音编辑器

11-19 16:23

市面上那么多AI变声器到底该选哪个？某宝抖音里499、599、699调试变声到底值不值得？

市面上那么多AI变声器市面上的AI变声器其实都是同一个人制作的，只是换了不同的外观和声音模型。这个人制作的变声器是开源的，所以市面上出现了很多不同的变声器软件，它们的声音模型有免费的也有收费的。至于那些贵的离谱的收费模型，如果你有钱，可以购买，但如果你想免费使用，也有温柔御姐、俏皮萝莉等各种声音模型

分类标签 AI变声器某宝抖音调试变声

11-19 16:22

实时变音神器：入梦Ai变声器使用体验指南

实时变音神器：入梦Ai变声器使用体验指南入梦Ai变声器是一款实用的实时变音软件，能帮助用户轻松实现各种声音效果。该软件能够在录音、直播、游戏语音中实时变换声音，为用户提供更多声音选择。本文旨在让读者了解此类工具的存在，以防上当受骗，并非教导如何利用变声器欺骗他人。体验与使用运行入梦Ai变声器.exe

分类标签实时变音软件入梦AI变声器声音选择

11-19 16:21

大饼AI变声：声音创造的无限乐园

大饼AI变声：声音创造的无限乐园声音不再局限于自然的音色，而是成为一种可以塑造、创造的艺术。大饼AI变声作为一款免费的AI实时变声工具，为用户带来了前所未有的声音体验。大饼AI变声以其千种音色和自然的人声效果而备受瞩目。用户可以选择多样化的音色，实现从幽默搞笑到庄重神秘的无限可能性。这款工具支持全场

分类标签大饼AI变声声音体验音色转换

11-19 16:19

AI+公开课已经有团队开始用AI训练人了！

AI+公开课已经有团队开始用AI训练人了！近年来，随着人工智能技术的不断发展，越来越多的公司开始尝试用AI训练人。据悉，AI+公开课团队已经开始了这项尝试，并取得了一定的成果。AI训练人的意义在于，通过让机器学习人类的行为模式和思维方式，从而让机器更好地服务于人类。这项技术的应用前景非常广阔，尤其是

分类标签 AI训练人张佳

11-16 08:01