AIGC音频合成知识入门

新知榜官方账号

2023-07-04 11:35:01

AIGC音频合成知识入门

在不同的职业阶段，产品经理需要侧重不同的方面，从基础技能、业务深度、专业领域到战略规划和管理能力。本篇文章，作者以AI音频合成为主，分析音频合成的流程，以及需要考虑的几个方面，帮助音频合成零基础的伙伴，快速掌握音频合成。

今年席卷而来的AI风潮刮到了各个模态，音频创作作为重要形态之一，也逐渐涌现出众多产品与模型，但音频合成的基本原理你是否了解呢？一起来看看吧。

一、定义

组成声音的结构包括音素、音节、音位、语素等，音频生成是对这些基本单位进行预测和组合，通过频谱逼近或波形逼近的合成策略来生成对应的声音波形。语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征，还原声音波形的过程。语音＋音频结合后才得到我们常见的歌曲、朗读等形态。音频生成目前主要包括：根据文本合成语音（text-to-speech），进行不同语言之间的语音转换，音色克隆（SingingVoiceConversion），根据视觉内容（图像或视频）进行语音描述，以及生成旋律、音乐等。

二、发展历程

音频生成随着计算机技术的发展，逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。基于对这个结构部分模块的替代或优化，音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。

波形拼接语音合成
顾名思义，波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后，在已有的语音数据库中查找基本单位，拼接合成语音。其背后需要录制大量的音频，尽可能覆盖全所有的音节、音素等，数据库中的录音量（样本）越多，最后合成的音频效果越好。
优点：基于真人录制的语音音质较好，听觉上比较真实。
缺点：拼接效果依赖于语音库的数据量，需要录制大量的语音才能保证覆盖率；字词的衔接过渡较为生硬，不够自然。
参数语音合成技术
参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。训练好的模型对输入数据进行分词、断句、韵律分析等，映射出对应的声学特征，再由声学模型（声码器）合成音频。
优点：原始录音数据量小；字间协同过渡平滑，自然。
缺点：存在音质损失，没有波形拼接的好；机械感强，有杂音。
端到端语音合成技术
端到端语音合成技术是目前最为主流的技术，通过神经网络学习的方法，采用编码器-注意力机制-解码器（Encoder-Attention-Decoder）的声学模型，实现直接输入文本或者注音字符。中间为黑盒部分，最后输出频谱和声音波形合成音频，简化了复杂的语言分析部分和特征抽取过程。端到端合成大大降低了对语言学知识的要求，可以实现多种语言的语音合成。通过端到端合成的音频，效果得到的进一步的优化，更加自然，趋近真人发声效果。目前，语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的，模型性能和应用能力的提升使其逐渐成为主流。
优点：对语言学知识要求降低；合成的音频自然，趋近人声，效果好；同参数合成一样所需录音量小。
缺点：黑盒模型，合成的音频不能人为调优；复杂合成任务需要较多资源。

三、影响应用能力的关键因素

输入类型、效果指标

四、效果指标

MOS值、ABX测评、其他指标（如PER、PTER、Sim）

五、应用场景

文本-语音合成（TTS）
目前技术发展已经较为成熟，市面上已有较多公司（讯飞、出门问问、思必驰等）推出了商业化产品，主要聚焦的应用场景是AI语音合成虚拟人主播。
音色迁移/语音克隆（SVC）
这段时间爆火的“AI孙燕姿”就是音色克隆的代表之一，只需要一定数量的训练集录音，就可将输入的文本或语音转换为目标模型音色部分商业化产品目前也在试行推广这一功能。

至此音频合成的知识入门就告一段落，感兴趣的同学可以尝试语音克隆的模型训练去了解更多，实践出真知~

本页网址：https://www.xinzhibang.net/article_detail-5332.html

寻求报道，请

关键词

分享至微信：

相关工具

新媒体AI内容创作助手

Jenni

AI研究文章和博客写作辅助工具

秘塔写作猫

AI写作，文章生成

字符狂飙

全方位AI文档生成工具，快速生成专业文档

Moonbeam

长文章AI内容创作助手

悉语

阿里旗下智能文案工具，一键生成电商营销文案

进化思考(3)：医疗AI，重在基层菜根老谭关注

进化思考(3)：医疗AI，重在基层菜根老谭关注医疗AI的发展已经引起了越来越多人的关注，但是我们不能忽视医疗AI在基层的应用。在基层，医疗资源不足，医生工作压力大，而医疗AI可以帮助医生更好地管理病人，提高医疗效率。菜根老谭一直关注着医疗AI的发展，他认为医疗AI可以帮助医生更好地进行病情分析和诊断

分类标签医疗AI基层菜根老谭

12-05 08:00

Can AI Writing Tools Like Write Sonic Help You Create High-Quality Voiceovers?

Can AI Writing Tools Like Write Sonic Help You Create High-Quality Voiceovers?As video content becomes an increasingly popular way of communication, m

分类标签 AI-generatedvoiceoversWriteSonictext-to-speechsynthesis

12-05 02:05

人工智能文本生成工具推荐

人工智能文本生成工具推荐在当前的人工智能领域，文字生成和处理技术正迅速发展。这些技术主要基于深度学习和自然语言处理（NLP），使机器能够理解、生成甚至翻译文本。现今的趋势显示，AI模型正变得越来越强大，如GPT-4和BERT模型，它们不仅能够处理复杂的语言任务，还能适应多种语言环境。AI在内容创作、

分类标签人工智能文本生成ChatGPTJasperWritesonicCopy.aiAnywordSudowriteRytrNotionAI

12-05 02:04

四款AI写作工具推荐

四款AI写作工具推荐AI自动写作工具的使用不仅能够帮助你节省时间，还能够提高你的写作技巧。通过观察和学习AI生成的文章，你可以了解到一些写作的技巧和方法，从而提升自己的写作水平。那么又有哪些简单又实用的ai写作推荐呢？爱制作AI爱制作AI广泛应用于各种领域。简洁直观的界面设计使得爱制作AI成为一款易

分类标签 AI写作工具爱制作AIWritesonicAIContentGenerator智能写作工具

12-03 02:03

奥特曼的个人特质引发争议，YCombinator创始人曾将其扫地出门

奥特曼的个人特质引发争议，YCombinator创始人曾将其扫地出门“ChatGPT之父”山姆·奥特曼(Sam Altman)被罢免的闹剧终于收场，他如愿回到了OpenAI。但是，这位精明的硅谷操盘手并非第一次被赶下台。如果你了解了他的过往“事迹”，或许你不会对他被罢免感到惊讶。据三名知情人士透露，

分类标签奥特曼YCombinatorOpenAI硅谷CEO风险投资

11-24 02:01

OpenAI不感谢Altman自象限关注2023-11-180评论738浏览0收藏15分钟

OpenAI不感谢Altman自象限关注2023-11-180评论738浏览0收藏15分钟OpenAI是一家人工智能公司，致力于推动人工智能技术的发展。然而，最近该公司却因为一些原因而引起了争议。据悉，OpenAI公司在2023年11月18日发布了一篇名为《自我超越的人工智能：我们需要担心吗？》的文

分类标签 OpenAIAltman自象限人工智能

11-19 08:00

OpenAI创始人离职，公司高层存在分歧可能成原因

据网络消息，OpenAI创始人兼CEO山姆·奥特曼离职，该消息引起了公司员工、合作伙伴、科技界人士以及媒体等的震惊。消息人士称，奥特曼被解雇的原因可能是OpenAI高层在公司未来发展上存在分歧，而分歧的核心涉及到“安全和商业化”，此外也可能是“个人原因或金钱问题”。OpenAI表示，在奥特曼离职之前

分类标签 OpenAI离职高层分歧

11-18 22:03

阿里云发布升级版通义千问2.0，多个应用场景加速追赶GPT-4

阿里云发布升级版通义千问2.0，多个应用场景加速追赶GPT-42023年的云栖大会上，阿里云发布了升级版的通义千问大模型——通义千问2.0。这个千亿级参数的大模型在多个权威测评中表现突出，甚至在某些方面已经超越了GPT-3.5和Llama2等国际知名模型。阿里云还宣布了通义千问2.0的多个应用场景，

分类标签阿里云通义千问2.0GPT-4人工智能行业应用模型开源

11-10 02:03

AI智能问答工具有哪些？

AI智能问答工具介绍AI智能问答工具是数字化时代重要组成部分，能够帮助用户快速找到所需信息。下面介绍4款常用的AI智能问答工具：1. notionAInotionAI是一款写笔记和大纲提要的AI神器。该工具有强大的数据库功能，包括文本总结、文本翻译、文本润色等功能，能够快速生成一篇文章。缺点是打开速

分类标签 AI智能问答工具AI工具智能聊天对话AI智能百科工具AI文案写作网站

11-09 02:02

10个AI工具帮你提升工作效率

10个AI工具帮你提升工作效率随着人工智能技术的迅速发展，越来越多的打工人开始利用各类AI工具来提升工作效率。下面介绍的10个工具可以帮助你轻松解决各种工作难题。1. ChatGPTChatGPT是一款能够通过理解和学习人类的语言来进行对话的AI工具，它能完成撰写邮件、视频脚本、文案、翻译、代码，写

分类标签 AI工具工作效率ChatGPTMidjourneyWritesonicremove.bgbeauiful.aiGalileoAIExcelFormulaBotAutoDrawTLDR-thisFliki

11-06 18:15