Meta发布了一款突破性的语音生成AI模型Voicebox

首页 > 行业观察 > Meta发布了一款突破性的语音生成AI模型Voicebox

新知榜官方账号

2023-10-11 18:12:29

Meta介绍了一种「突破性」的生成式语音系统，它可以合成六种语言的语音，执行噪声消除、内容编辑、风格转换和多样化样本生成。Voicebox是第一个没有经过专门针对语音生成的训练，却可以泛化到语音生成任务的模型。Voicebox可以创建多种样式的语音输出，包括从头开始创建输出和修改给定的样本。在跨语言风格迁移任务上，Voicebox优于YourTTS，将平均词错率从10.9%降低到5.2%，将音频相似度从0.335提高到0.481。

Voicebox基于一种称为流匹配（FlowMatching）的方法，该方法已被证明可以改进扩散模型。在生成效果方面，Voicebox的可懂度（词错率：1.9%VS5.9%）和音频相似度（0.681VS0.580）优于当前英文语音生成SOTA模型VALL-E，并且速度快了20倍。Voicebox在词错率指标上的表现优于Vall-E和YourTTS，实现新的SOTA。在英语和多语言基准的音频风格相似度指标上，Voicebox都取得了新的最佳结果。

Voicebox基于流匹配（FlowMatching）模型，这是Meta在非自回归生成模型方面的最新进展，其可以学习到文本和语音之间高度非确定性的映射关系。非确定性映射很有用，因为这能让Voicebox学习不同的语音数据而无需仔细标注这些变体。也就是说，Voicebox可以在更多样化的数据上训练，因此可使用数据的范围也大得多。Meta训练Voicebox时使用的数据来自英语、法语、德语、西班牙语、波兰语、葡萄牙语这六种语言，包含50000小时的录音和转录文本以及公共领域的有声书。

Voicebox的上下文学习能力让它可以在音频录音中生成无缝衔接的片段。要是音频中出现了被噪声污染的片段，它也可以为其重新合成，甚至无需重新录音就能替换原音频中说错的词句。用户可以辨别原始音频中被噪声（比如犬吠声）污染的片段，然后将其裁剪下来，再指示Voicebox重新生成该片段。这项能力有望让音频编辑变得非常简单，就像现在流行的图像编辑工具调整图像一样。Voicebox的这种多功能性使其可以很好地执行多种不同任务，包括：基于语境的文本转语音合成、跨语言风格迁移、语音降噪和编辑、多样化的语音采样等。

Meta的实验结果表明，基于Voicebox合成语音训练的语音识别模型的表现几乎不逊于使用真实语音训练的模型——错误率仅高了1%；而要是使用之前的文本转语音模型合成的数据训练，错误率会提升45%-70%。Meta表示，Voicebox作为首个能成功执行任务泛化的高效的多功能模型，将开创一个语音生成式AI的新时代。但Meta也没有否认这项技术可能被误用乃至被恶意使用。为了应对这种可能性，降低潜在的风险，Meta还构建了一种分类器，其宣称可有效分辨真实语音和VoiceBox生成的音频。

本页网址：https://www.xinzhibang.net/article_detail-16399.html

寻求报道，请

关键词

Meta 语音生成 AI模型

分享至微信：

相关工具

Elai.io

AI文本到视频生成工具

D-ID

AI真人口播视频生成工具

DreamFace

让图片动起来的AI工具

Synthesia

AI视频生成平台

Runway

强大的AI视频制作工具，绿幕抠像、视频合成等

Kaiber

图片文字转视频的AI引擎

Gemini的展示是剪辑造假？我们亲测了一下，发现...

Gemini的展示是剪辑造假？我们亲测了一下，发现...最近Gemini的展示引起了一些疑问，有人认为其中有剪辑造假的成分。我们进行了调查和测试，发现一些问题。首先，我们发现在Gemini的展示视频中，有些镜头明显是经过剪辑处理的。这些镜头可能是为了突出产品的特点而加入的，但也可能会误导观众。其次，

Gemini展示剪辑造假

12-10 08:00

阿里云通义听悟正式上线，成为国内首个开放公测的大模型应用产品

阿里云通义听悟正式上线，成为国内首个开放公测的大模型应用产品6月1日，阿里云宣布通义大模型进展，聚焦音视频内容的AI新品“通义听悟”正式上线，成为国内首个开放公测的大模型应用产品。阿里云方面透露，通义听悟接入了通义千问大模型的理解与摘要能力，可成为用户工作学习中的得力AI助手，帮助随时随地高效完成对

阿里云通义听悟大模型应用

11-30 22:13

AI技术被骗子利用，智能AI技术进行电信诈骗的案件被曝光

AI技术被骗子利用，智能AI技术进行电信诈骗的案件被曝光随着AI技术的普及，带来的副作用也日益显现。证据存证，真实不可篡改AI这一技术，能让视频中的人物变脸、变声。有人用它诈骗，有人将自家主播的脸换成明星的脸带货捞钱。只要你一不小心就会“入套”。或许很多人没有意识到问题的严重性，认为技术还没有成熟到

AI技术骗子电信诈骗

11-19 16:20

极限元：AI虚拟主播、实时变声、说话人自适应等解决方案

AI虚拟主播解决方案极限元AI虚拟主播基于少量的音视频数据即可快速生成主播形象，输入文本就可以生成具备同步口型、丰富面部表情及各类型动作的AI合成主播播报的音视频，结合语音识别、语义理解、语音合成、虚拟形象驱动等AI核心技术，通过手机APP、大屏一体机等终端展现形式，实现用户与虚拟客服之间的“面对面

AI虚拟主播实时变声说话人自适应

10-11 18:10

Meta推出通用性最高的语音生成AI工具Voicebox，Gannett引入AI协助撰写新闻，NYU研究人员通过ChatGPT设计芯片

Meta推出通用性最高的语音生成AI工具Voicebox18日（美国当地时间17日），Meta推出突破性文本转语音的AI工具Voicebox，可以合成六种语言的语音，执行降噪、内容编辑、转换音频风格等。Meta称其为目前通用性最高的语音生成AI，比相仿模型快20倍。根据Meta的说法，Voicebo

MetaVoiceboxGannettAIChatGPTNYU

10-11 18:08

TAVMedia：全平台视频剪辑方案

背景这几年短视频行业的迅速发展，视频内容生产作为内容生态的重要一环，逐渐成为内容平台必备基础能力，像手Q、抖音、快手、视频号等各种内容或社交类产品，都需要音视频编辑能力。除短视频行业之外，AMS广告对于动态视频需求也愈发强烈，游戏行业对于战报视频也成为刚性需求，比如头部的王者战报、吃鸡战报等等。但是

短视频智影TAVMedia

10-04 22:22

腾讯智影AI智能成片技术的应用场景和未来发展前景

腾讯智影AI智能成片技术的技术原理腾讯智影AI智能成片技术是一种非常强大的智能化影像处理技术，它基于图像识别和深度学习算法，通过分析大量的影像数据，学习和模仿专业导演的创作过程。这项技术能理解影像的内容，识别出不同的场景、人物和动作等元素，并根据这些元素来自动进行剪辑和后期处理。具体来说，这个技术首

腾讯智影AI智能成片技术应用场景

10-04 22:20

Python语音识别程序

Python语音识别程序该程序使用Python的SpeechRecognition库和Pyaudio库实现语音识别和播放功能。程序首先创建一个Recognizer对象，并使用麦克风录制语音。然后使用recognize_google方法将语音转换为文本，并将结果打印出来。最后使用Pyaudio库播放录

Python语音识别SpeechRecognition

10-03 07:06

录音回听：提高口语表达能力的有效方法

录音回听是提高口语表达能力的有效方法之一。通过录制自己的语音并回听，可以发现自己的不足之处并加以改进。以下是具体方法和注意事项：1. 记住一小部分录音选择30秒到1分钟的录音时间，可以是一段英语播客、一段小课堂讲解或一段TED演讲等。首先听一遍录音，然后默读文本并边听边跟读，最后尝试背诵整段录音。2

录音回听口语表达能力语音训练

10-03 07:04

联合国报告批评AI语音助手存在性别偏见问题

联合国报告批评AI语音助手存在性别偏见问题近日，联合国教科文组织（UNESCO）发布一份146页的报告《如果我能，我会脸红》（I'dblushifIcould）批评多数AI语音助手中潜藏着的性别偏见问题。报告指出，Alexa和Siri等多数人工智能语音助手将声音默认设置为女声，且强化了千篇一律的、顺

AI语音助手性别偏见联合国报告

10-02 02:20