新知榜官方账号
2023-06-29 20:53:07
近日,Meta宣布发布全新的语音生成AI模型——VoiceBox。它是一个端到端的神经网络模型,不需要任何人工特征或先验知识,就可以直接从文本生成原始的音频波形。
VoiceBox还能够根据角色的外貌、性别、年龄等特征,自动调整语音的参数,使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。
语音生成是人工智能的一个重要领域,它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。然而,要让NPC角色生成自然而富有表现力的语音,仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格。此外,这些AI模型往往只能生成单一的声音,而不能根据不同的文本和情境,切换不同的说话者或情感。
近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。它是第一个能够在没有专门训练数据集或预先定义任务目标情况下,完成任何文本到语音任务,并且能够在给定单独语音样本情况下,以说话者原始声音朗读后面的文本内容。
VoiceBox能以各种各样的风格创建输出,它既可以从零开始创建输出,也可以修改给定的样本。但是,VoiceBox产生的不是图片或文本段落,而是高质量的音频。
VoiceBox使用一种新的方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,VoiceBox可以修改给定样本的任何部分,而不仅仅是给定音频的末尾。VoiceBox基于一种称为FlowMatching的方法,该方法已被证明可以改善扩散模型。
VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E,无论是在可理解性还是在音频相似性方面都是如此,同时速度快达20倍。对于跨语言风格转换,VoiceBox超越了YourTTS,将平均词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。VoiceBox在词错误率方面实现了新的最先进结果,超越了Vall-E和YourTTS。
VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者、语言、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。
VoiceBox的强大功能能够支持多种任务:
VoiceBox的强大功能能够支持多种应用场景:
例如,在一个冒险游戏中,VoiceBox可以为玩家遇到的各种角色生成不同的声音,如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪,还能够适应不同的场景和情境,如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格,增加游戏的互动性和趣味性。
Meta表示,VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。但现阶段暂不计划向公众发布VoiceBox应用,以及它的开源代码,因为担心像目前AI换脸技术被滥用在诈骗上一样。Meta意识到这项工具带来滥用和被用来犯罪的可能性,声称将为此构建一个分类器,以区分真实的音频和VoiceBox生成的语音,以减轻这些未来可能存在的风险。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16