微软推出NaturalSpeech2语音模型,实现零样本语音合成

新知榜官方账号

2023-07-28 22:10:25

微软推出NaturalSpeech2语音模型,实现零样本语音合成

全网账号同名AI合成语音如今已经屡见不鲜,然而在用户听来却不能让人产生与真人对话和阅读般的沉浸感。不过日前微软推出了一款名为NaturalSpeech2的语音模型,该模型采用“潜在扩散”式设计,在零样本语音合成层面效果出众,微软宣称该模型提供了“商业级”的语音/歌唱解决方案,能够给予用户高质量、多样化的语音合成体验,其在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。

据悉,与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音,从而生成更完整的语音片段,不会产生“缺乏感情”的“棒读(一字一顿地讲话)”现象。在发布论文的实验结果可以了解到,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律近乎一致,并且在LibriTTS和VCTK测试集上的自然度(以CMOS为度量)与真人语音难以区分。

在微软Azure认知服务语音首席研发总监赵晟看来,NaturalSpeech系统首次达到了与真人录音没有显著差异的效果,是TTS研究上的一个新的里程碑。从长远角度来讲,虽然借助新模型能够实现更高质量的合成语音,但这并不意味着彻底解决了TTS所面临的问题。目前,TTS仍然存在很多具有挑战性的场景,需要未来更先进的建模技术来模拟真人语音的表现力和多变性。

本页网址:https://www.xinzhibang.net/article_detail-8839.html

寻求报道,请 点击这里 微信扫码咨询

关键词

微软 NaturalSpeech2 语音模型 零样本 语音合成

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯