微软新一代语音合成模型NaturalSpeech2：零样本语音合成的跨越式发展 - AI工具

首页 > 行业观察 > 微软新一代语音合成模型NaturalSpeech2：零样本语音合成的跨越式发展

微软新一代语音合成模型NaturalSpeech2：零样本语音合成的跨越式发展

新知榜官方账号

2023-12-06 04:22:13

背景介绍

近期微软推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声，实现了零样本语音合成的跨越式发展。在TTS领域，微软亚洲研究院机器学习组和微软Azure语音团队早已深耕多年，并在近期推出了语音合成模型NaturalSpeech2，只需几秒提示语音即可定制语音和歌声，省去了传统TTS前期训练过程，实现了零样本语音合成的跨越式发展。

创新设计

NaturalSpeech2提出了一系列创新设计，如图1所示，完美地有效规避了先前的局限，实现了零样本语音合成的重要突破。同时，非自回归的方式和音高时长预测机制也赋予了NaturalSpeech2扩展到语音之外的风格（例如歌声）的能力。

优势

相比先前的语音合成系统，NaturalSpeech2有以下几大优势：1.使用连续向量替代离散token，缩短序列长度，同时增加细粒度重建语音所需要的细节信息；2.采用扩散模型替代自回归语言模型，避免自回归模型中的错误累积所导致的韵律不稳定、重复、漏词等问题；3.引入语音提示机制，激发上下文学习能力，提升了零样本的预测能力。

未来展望

未来，该研究团队将持续推动符合负责任的人工智能原则的语音合成大模型的研发，在更加多样化的场景中生成质量更高且更自然的语音，让语音合成技术可以赋能更多个人和组织。

本页网址：https://www.xinzhibang.net/article_detail-22106.html

寻求报道，请

关键词

微软语音合成 NaturalSpeech2

分享至微信：

相关工具

AirOps

AI SQL语句生成和修改

Warp

21世纪的终端工具（内置AI命令搜索）

HeyCLI

自然语言转义为CLI命令

CodiumAI

AI代码测试工具

Debuild

低代码快速开发网页应用

CodeArts Snap

华为云推出的智能编程助手

语音识别概念与技术

语音识别概念与技术语音识别是将人类语音转换为计算机可读的输入的技术。在语音识别过程中，包括语音信号采集、特征提取、模型训练、模型测试和应用部署。语音识别流程语音信号采集、特征提取、模型训练、模型测试和应用部署是语音识别的流程。语音识别算法常见的语音识别算法有隐马尔科夫模型、最大熵模型、支持向量机和深

语音识别算法麦克风

12-07 22:47

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考

为什么越想让业绩增长越难增长，如何让业绩顺其自然且高效增长老陈的深度思考业绩增长是企业的核心目标之一，但是很多企业却发现，越是想让业绩增长，反而越难增长。这是为什么呢？首先，我们需要明确一点，企业的业绩增长不能仅仅依靠销售人员的努力，它需要全企业的共同努力。而在实际操作中，往往存在以下问题：过分依赖

业绩增长高效增长市场产品经理

12-06 08:01

iPhone6s HeySiri功能随时启用，但不会泄露隐私

iPhone6s HeySiri功能随时启用，但不会泄露隐私在刚发布不久的苹果iPhone6s和iPhone6sPlus上有不少亮点，其中就包括可一直处于待命状态的新版“HeySiri”功能，有人担心这项新特性会导致“一呼百应”的尴尬情况，其实大可放心。得益于A9/A9X处理器中集成了M9协处理器，

iPhone6sHeySiri语音控制

12-06 04:24

iOS9功能抄袭安卓？用户才是赢家

iOS9功能抄袭安卓？用户才是赢家近日发布的iOS9可谓吸引了众多果粉目光，尤其LightShift功能可谓是深深动摇了那些固守在iOS8的粉丝的心。似曾相识？没错，和f.lux插件功能基本一致，f.lux是一款会根据时间变化，自动调节电脑屏幕的亮度、色彩，让电脑、手机屏幕始终适合保持在适合阅读的状

iOS9安卓抄袭

12-06 04:23

大模型在智能汽车中的应用趋势

近年来，大模型在智能汽车中的应用越来越广泛，越来越多的车企通过自研或合作的方式上车大模型。大模型将对汽车的智能化进行多方面赋能，包括增强语音交互、助力自动驾驶、提高内容生成等。目前，大模型在智能汽车中的应用仍存在多模态数据融合、云端算力需求大、车端部署、以及安全性和一致性等问题。随着模型的优化和技术

大模型智能汽车自动驾驶

12-06 04:21

华为推出语音助手Celia，可通过HeyCelia唤醒Siri

华为推出语音助手Celia，可通过HeyCelia唤醒Siri3月27日消息，在开通Siri的iPhone上喊出华为P40系列发布会上语音命令HeyCelia（西莉亚，[ˈsiːlɪə]），可以唤醒Siri让人意外，但这不是个例，不少网友反馈，IT之家也尝试了一番，发现通过HeyCelia语言能够近

华为语音助手Celia

12-06 04:20

自然语言界面：开启人机交互的全新篇章

自然语言界面：开启人机交互的全新篇章随着人工智能技术的发展和普及，自然语言界面逐渐成为了人机交互的重要方式之一。自然语言界面指的是通过自然语言进行交互的界面，即人们可以使用自然语言（如中文、英文等）与计算机进行交互，而不需要通过鼠标、键盘等输入设备。自然语言界面的应用范围非常广泛，包括语音识别、智能

自然语言界面人机交互用户体验设计

12-04 08:00

2步打通ModelArts和Astro实现AI应用落地

引言随着GPT火爆全球，人工智能（AI）逐渐成为当今最具创新性和前景的技术之一，它可以为各行各业带来巨大的价值和变革。然而，AI应用的开发和部署并不是一件容易的事情，它需要涉及数据处理、算法开发、模型训练、应用构建、部署管理等多个环节，而且需要有专业的技术人员和复杂的工具链。对于很多企业来说，这是一

ModelArtsAstroAI应用机器学习深度学习低代码开发平台

11-28 02:10

ChatGPT及其应用

ChatGPT及其应用今年初，一种名为ChatGPT的智能对话机器人模型开始了全球范围内的人类智能热潮，不知道大家听说过没有呢？简单来了解一下，这个模型是由OpenAI公司推出的，采集并利用了深度学习捕捞练习模型来真实对话，具有自然性和流畅性。在未来，ChatGPT这种基于大规模自然语言处理技术的人

ChatGPT智能对话机器人人工智能

11-28 02:09

GPT-3新增编辑和插入功能：更接近人类智能

GPT-3新增编辑和插入功能：更接近人类智能OpenAI的明星研究所、老是搞事情的OpenAI，最近又搞了个事情：GPT-3增加了两项新功能：「编辑」与「插入」。这两个功能让GPT-3更接近真正的人类智能，能够根据之前出现的文本在现有内容的末尾添加文本、编辑文本、更改当前存在的内容或在内容中间添加文

GPT-3编辑插入

11-28 02:08