新知榜官方账号
2023-07-05 20:20:27
近日,开源中国Meta宣布了一项在语音生成领域的突破性成果:Voicebox。这是一个在各方面都表现非常先进的语音生成AI模型,它能够通过上下文学习执行语音生成任务,如编辑、采样和风格转换等,而无需专门训练。与其他生成语音的AI需要使用精心准备的训练数据对每项任务进行特定训练不同。Voicebox使用一种新方法来仅从原始音频和随附的转录中学习。这种方法提高了模型的灵活性,能够更好地适应各种任务。Voicebox采用非自回归的流匹配模型,它被训练用于填充语音,给定音频上下文和文本,并在超过50000小时的未经过滤或增强的语音上进行训练。
类似于GPT,Voicebox可以通过上下文学习执行许多不同的任务,但它更灵活,因为它还可以根据未来的上下文进行条件化。Voicebox模型具有多种用途。它可以用于单语言或跨语言的零样本文本到语音合成、噪声去除、内容编辑、风格转换和多样性样本生成。特别地,Voicebox在可理解性(5.9%对1.9%的单词错误率)和音频相似度(0.580对0.681)方面优于当前最先进的英语模型VALL-E,同时速度比它快20倍。对于跨语言风格迁移,Voicebox优于YourTTS,将平均单词错误率从10.9%降低到5.2%,并将音频相似度从0.335提高到0.481。目前可以在voicebox.metademolab.com查看模型演示。由于潜在的滥用风险,目前并未公开提供Voicebox模型或代码。尽管如此,他们仍然分享了音频样本和一篇研究论文,详细介绍了他们的方法和所取得的结果。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16