Translatotron2: 打破语言障碍的新一代语音到语音翻译模型

新知榜官方账号

2023-11-04 16:34:16

概述

语音到语音翻译(S2ST)是打破世界各地人们之间语言障碍的关键。自动S2ST系统通常由一系列语音识别、机器翻译和语音合成子系统组成。然而，这种级联系统可能会遭受更长的延迟、信息丢失（尤其是副语言和非语言信息）以及子系统之间的复合错误。

2019年，Google推出了Translatotron，这是有史以来第一个能够直接在两种语言之间翻译语音的模型。这种直接的S2ST模型能够有效地进行端到端的训练，并且还具有在翻译语音中保留源说话者的声音（非语言信息）的独特能力。然而，尽管它能够以高保真度生成听起来自然的翻译语音，但与强大的基线级联S2ST系统（例如，由直接语音到文本翻译模型[1,2]和Tacotron2组成）相比，它的表现仍然不佳。TTS模型。

在“Translatotron2:RobustdirectSpeech-to-speechtranslation”中，Google描述了Translatotron的改进版本，该版本显着提高了性能，同时还应用了一种将源说话者的声音转换为翻译语音的新方法。即使输入语音包含多个说话者轮流说话，修改后的语音转移方法也是成功的，同时也减少了误用的可能性并更好地符合Google的AI原则。在三个不同语料库上的实验一致表明，Translatotron2在翻译质量、语音自然度和语音鲁棒性方面大大优于原始Translatotron。

Translatotron2的模型架构

Translatotron2由四个主要组件组成：语音编码器、目标音素解码器、目标语音合成器和将它们连接在一起的注意力模块。编码器、注意力模块和解码器的组合类似于典型的直接语音到文本翻译(ST)模型。合成器以解码器和注意力的输出为条件。

Translatotron和Translatotron2之间的三个新变化是提高性能的关键因素：

虽然目标音素解码器的输出在原始Translatotron中仅用作辅助损失，但它是Translatotron2中频谱图合成器的输入之一。这种强大的条件使Translatotron2更容易训练并产生更好的性能。
原始Translatotron中的频谱图合成器是基于注意力的，类似于Tacotron2TTS模型，因此，它也存在Tacotron2表现出的稳健性问题。相比之下，Translatotron2中使用的频谱图合成器是持续时间-基于，类似于Non-AttentiveTacotron使用的，它大大提高了合成语音的鲁棒性。
Translatotron和Translatotron2都使用基于注意力的连接到编码的源语音。然而，在Translatotron2中，这种注意力是由音素解码器而不是频谱图合成器驱动的。这确保了频谱图合成器看到的声学信息与其正在合成的翻译内容保持一致，这有助于在说话者轮流中保留每个说话者的声音。

Translatotron2的性能

Translatotron2在Google衡量的各个方面都大大优于原始Translatotron：更高的翻译质量（由BLEU衡量，越高越好）、语音自然度（由MOS衡量，越高越好）和语音鲁棒性（由UDR衡量，越低越好）。它在更难的Fisher语料库中表现尤为出色。在多语言设置上的性能，Translatotron2再次大幅超越了原来的Translatotron。

本页网址：https://www.xinzhibang.net/article_detail-18918.html

寻求报道，请

关键词

语音翻译 Translatotron2 S2ST 自然语音多语言翻译语言障碍

分享至微信：

相关工具

Jasper Chat

Jasper针对内容创作者出品的AI聊天工具

MOSS

复旦大学团队开发的对话式大型语言模型

Character.AI

创建虚拟角色并与其对话

ColossalChat

Colossal-AI推出的免费开源版ChatGPT聊天机器人替代品

Google Bard

Google推出的AI聊天对话机器人Bard

Bing新必应

微软推出的新版结合了ChatGPT功能的必应

使用手机制作和演示幻灯片

使用PowerPointApp 步骤1：下载PowerPointApp在您的手机应用商店中搜索“PowerPoint”并下载安装应用程序。如果您已经有了Microsoft帐户，则可以直接登录。否则，您需要先创建一个Microsoft帐户。步骤2：创建幻灯片在PowerPointApp中选择“新建演

分类标签手机幻灯片制作演示PowerPointAppGoogleSlidesApp

12-07 02:21

谷歌实验性聊天机器人Bard的产品负责人透露Bard是其开发另一款能吸引20亿用户的产品的必经之路

谷歌实验性聊天机器人Bard的产品负责人杰克·克劳奇克透露，Bard是其开发另一款能吸引20亿用户的产品的必经之路。克劳奇克表示，Bard可以让消费者集思广益并获取信息，这为谷歌吸引更多用户的目标奠定了基础。谷歌的这一计划凸显了其母公司Alphabet在人工智能方面的雄心壮志，迄今为止，Alphab

分类标签谷歌Bard人工智能

12-04 06:23

Google的AI聊天机器人Bard新增图像和多语言支持，以抢占ChatGPT市场份额

AI聊天机器人市场竞争加剧，Google的Bard更新增添新功能近期数据显示，AI聊天机器人市场竞争愈加激烈，Google的Bard通过新增图像和多语言支持等新功能，努力抢占市场份额。Bard现在支持40多种语言，并在欧洲和巴西等地区提供服务。用户可以通过上传图像和文本来使用Bard生成输出，并且B

分类标签 AI聊天机器人Bard图像支持多语言支持

12-04 06:22

LLM时代，为什么Apple仍有底气自我颠覆，而Google不行？

LLM时代，为什么Apple仍有底气自我颠覆，而Google不行？随着LLM时代的到来，科技公司面临着前所未有的挑战。在这个时代，Apple仍然能够保持其自我颠覆的能力，而Google却表现不佳。那么，为什么Apple能够做到这一点呢？1. Apple的产品设计Apple一直以来都以其出色的产品设计

分类标签 LLM时代Apple自我颠覆

11-30 08:02

谷歌通过Bard加强人工智能合作回应

谷歌通过Bard加强人工智能合作回应据外媒报道，Bard的产品负责人JackKrawczyk在接受采访时表示，Bard可以让消费者在新的人工智能的帮助下集思广益并获取信息，它正在为谷歌吸引更多客户奠定基础。其中一个机会是，该公司计划通过Bard的合作回应来激活其定时器设置、命令执行谷歌助手。Kraw

分类标签 Bard人工智能谷歌助手

11-26 02:20

谷歌升级机器人Bard，让用户轻松获取YouTube视频内容

谷歌升级机器人Bard，让用户轻松获取YouTube视频内容近日，谷歌宣布对其聊天机器人Bard进行了升级，使其能够快速地理解YouTube视频内容。Bard目前可以从视频资源库中提炼出有用信息以达到迅速回答用户提问的效果，帮助用户更深入透彻地了解YouTube影片内容。谷歌表示还在开发YouTub

分类标签谷歌Bard机器人YouTube视频内容用户需求

11-26 02:19

Google的BardAI聊天机器人现在可以回答与YouTube视频内容相关的具体问题

Google宣布其BardAI聊天机器人现在可以回答与YouTube视频内容相关的具体问题。尽管Bard在去年9月推出YouTube扩展功能时已具备分析YouTube视频的能力，但现在，聊天机器人可以为您提供有关视频内容的具体查询答案。公司在Bard更新页面上写道：「我们正在迈出Bard理解YouT

分类标签 GoogleBardAI聊天机器人YouTube视频

11-26 02:18

谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题

谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题。Bard通过扩展YouTubeExtension的功能，不仅可以找到特定视频，还可以回答与视频内容相关的具体问题，提供更深入的视频交流体验。在此次更新之前，Bar

分类标签 BardAI聊天机器人YouTube视频

11-24 10:05

Google人工智能聊天机器人Bard的YouTube整合功能得到升级

Google的人工智能聊天机器人巴德（Bard）在经历了乏善可陈的发布之后，已经逐渐变得越来越有用。现在，该机器人的YouTube整合功能得到了方便的升级，这样它就可以分析单个视频，为观众提供特定的信息--比如关键点或食谱成分--而无需按下播放键。这可能是一个非常有用的工具，但也可能让创作者更加担心

分类标签 Google人工智能聊天机器人

11-24 10:04

Bard聊天机器人：观众消化视频的利器，创作者的噩梦

Bard聊天机器人：观众消化视频的利器，创作者的噩梦在短视频逐渐占据上风的视频领域，另一大威胁正在慢慢靠近。“三分钟看完X电影”的短视频up主与“一分钟总结X电影”的人工智能即将进入正面交锋。更让up主们为难的是，他们很难回答到每一个观众的问题，但AI却没有这个烦恼。谷歌的Bard聊天机器人正是掀起

分类标签 Bard聊天机器人短视频人工智能

11-24 10:03

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway