新知榜官方账号
2023-06-29 20:53:07
近日,Meta宣布发布全新的语音生成AI模型——VoiceBox。它是一个端到端的神经网络模型,不需要任何人工特征或先验知识,就可以直接从文本生成原始的音频波形。
VoiceBox还能够根据角色的外貌、性别、年龄等特征,自动调整语音的参数,使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。
语音生成是人工智能的一个重要领域,它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。然而,要让NPC角色生成自然而富有表现力的语音,仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格。此外,这些AI模型往往只能生成单一的声音,而不能根据不同的文本和情境,切换不同的说话者或情感。
近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。它是第一个能够在没有专门训练数据集或预先定义任务目标情况下,完成任何文本到语音任务,并且能够在给定单独语音样本情况下,以说话者原始声音朗读后面的文本内容。
VoiceBox能以各种各样的风格创建输出,它既可以从零开始创建输出,也可以修改给定的样本。但是,VoiceBox产生的不是图片或文本段落,而是高质量的音频。
VoiceBox使用一种新的方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,VoiceBox可以修改给定样本的任何部分,而不仅仅是给定音频的末尾。VoiceBox基于一种称为FlowMatching的方法,该方法已被证明可以改善扩散模型。
VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E,无论是在可理解性还是在音频相似性方面都是如此,同时速度快达20倍。对于跨语言风格转换,VoiceBox超越了YourTTS,将平均词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。VoiceBox在词错误率方面实现了新的最先进结果,超越了Vall-E和YourTTS。
VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者、语言、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。
VoiceBox的强大功能能够支持多种任务:
VoiceBox的强大功能能够支持多种应用场景:
例如,在一个冒险游戏中,VoiceBox可以为玩家遇到的各种角色生成不同的声音,如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪,还能够适应不同的场景和情境,如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格,增加游戏的互动性和趣味性。
Meta表示,VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。但现阶段暂不计划向公众发布VoiceBox应用,以及它的开源代码,因为担心像目前AI换脸技术被滥用在诈骗上一样。Meta意识到这项工具带来滥用和被用来犯罪的可能性,声称将为此构建一个分类器,以区分真实的音频和VoiceBox生成的语音,以减轻这些未来可能存在的风险。
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49