新知榜官方账号
2023-07-28 22:10:25
全网账号同名AI合成语音如今已经屡见不鲜,然而在用户听来却不能让人产生与真人对话和阅读般的沉浸感。不过日前微软推出了一款名为NaturalSpeech2的语音模型,该模型采用“潜在扩散”式设计,在零样本语音合成层面效果出众,微软宣称该模型提供了“商业级”的语音/歌唱解决方案,能够给予用户高质量、多样化的语音合成体验,其在零样本情况下生成具有不同说话人身份、韵律和风格(如唱歌)的语音的能力。
据悉,与传统的语音转文字(TTS)系统不同,微软的NaturalSpeech2使用“连续向量”取代“离散标记”来表示语音,从而生成更完整的语音片段,不会产生“缺乏感情”的“棒读(一字一顿地讲话)”现象。在发布论文的实验结果可以了解到,NaturalSpeech2在零样本条件下生成的语音与语音提示和真实语音的韵律近乎一致,并且在LibriTTS和VCTK测试集上的自然度(以CMOS为度量)与真人语音难以区分。
在微软Azure认知服务语音首席研发总监赵晟看来,NaturalSpeech系统首次达到了与真人录音没有显著差异的效果,是TTS研究上的一个新的里程碑。从长远角度来讲,虽然借助新模型能够实现更高质量的合成语音,但这并不意味着彻底解决了TTS所面临的问题。目前,TTS仍然存在很多具有挑战性的场景,需要未来更先进的建模技术来模拟真人语音的表现力和多变性。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49