谷歌的通用语音模型USM已支持100多个语种的自动识别检测

新知榜官方账号

2023-07-01 11:06:33

谷歌的通用语音模型USM已实现升级，支持100多个语种内容的自动识别检测。去年11月，谷歌曾计划创建一个支持1000个语种的AI模型USM。

USM被称为“最先进的通用语音模型”，拥有20亿个参数，经过涵盖1200万小时的语音、280亿个句子和300多个语种数据集的预训练。USM的强大效果已在Youtube的字幕生成中展现出来，可自动翻译和检测如英语、汉语等主流语种，还能识别出阿萨姆语这种小众语种，可以说“精通方言”。

TheVerge的记者称，除了相传将在今年的I/O开发者大会中展示的20多款AI驱动产品之外，谷歌目前还在朝着更高目标迈进——构建一个支持1000种语种的机器学习模型。

USM已被YouTube用于生成字幕，它还支持自动语音识别（ASR），可自动检测和翻译语言，不仅包括普通话、英语等广泛使用的语言，还包括阿姆哈拉语、宿务语、阿萨姆语等冷门语言。目前，谷歌称USM可支持检测100多个语种，并将作为构建更大的系统的“基础”。

USM使用的是标准的编码器-解码器架构，其中解码器是CTC、RNN-T和LAS，编码器使用的是Conformer或卷积增强变换器。据论文显示，对于USM的训练共分为三个步骤。第一步是使用BEST-RQ来对涵盖数百种语种的语音音频进行自我监督学习，已经在多语言任务上展示了最先进的结果，在使用了大量的无监督音频数据后的证明结果是有效的。第二步需要使用多目标监督预训练来整合来自于其他文本数据的信息。最后一步需要USM对下游任务进行微调，包括ASR（自动语音识别）和AST（自动语音翻译）。

USM的整体培训渠道对于USM的有效性，团队通过YoutubeCaption的多语言语音数据进行微调来验证。USM在73个语种当中实现了平均低于30%的单词容错率（WER），与当前内部最先进的模型相比降低了6%。

谷歌若想实现连接全球信息并使每个人都能自由访问的愿景，USM的开发将会是关键的一步，USM的基础模型框架和训练通道已经打下了一个基础，他们要做的就是在此基础上将语音模型扩展至1000种语言。

信息时代，科技进步将会进一步帮助各个国家地区的语言和文化突破地域的限制，很大程度上解决信息茧房带来的困扰。

本页网址：https://www.xinzhibang.net/article_detail-3816.html

寻求报道，请

关键词

谷歌通用语音模型 USM 自动识别检测语种

分享至微信：

相关工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

ChatGPT

OpenAI旗下AI对话工具

百度AI伙伴

百度最新上线的AI搜索对话工具

Character.AI

创建虚拟角色并与其对话

天工AI助手

昆仑万维与奇点智源联合研发的对标ChatGPT的大语言模型

Neeva

集成了AI问答的AI搜索引擎

使用手机制作和演示幻灯片

使用PowerPointApp 步骤1：下载PowerPointApp在您的手机应用商店中搜索“PowerPoint”并下载安装应用程序。如果您已经有了Microsoft帐户，则可以直接登录。否则，您需要先创建一个Microsoft帐户。步骤2：创建幻灯片在PowerPointApp中选择“新建演

分类标签手机幻灯片制作演示PowerPointAppGoogleSlidesApp

12-07 02:21

谷歌实验性聊天机器人Bard的产品负责人透露Bard是其开发另一款能吸引20亿用户的产品的必经之路

谷歌实验性聊天机器人Bard的产品负责人杰克·克劳奇克透露，Bard是其开发另一款能吸引20亿用户的产品的必经之路。克劳奇克表示，Bard可以让消费者集思广益并获取信息，这为谷歌吸引更多用户的目标奠定了基础。谷歌的这一计划凸显了其母公司Alphabet在人工智能方面的雄心壮志，迄今为止，Alphab

分类标签谷歌Bard人工智能

12-04 06:23

Google的AI聊天机器人Bard新增图像和多语言支持，以抢占ChatGPT市场份额

AI聊天机器人市场竞争加剧，Google的Bard更新增添新功能近期数据显示，AI聊天机器人市场竞争愈加激烈，Google的Bard通过新增图像和多语言支持等新功能，努力抢占市场份额。Bard现在支持40多种语言，并在欧洲和巴西等地区提供服务。用户可以通过上传图像和文本来使用Bard生成输出，并且B

分类标签 AI聊天机器人Bard图像支持多语言支持

12-04 06:22

LLM时代，为什么Apple仍有底气自我颠覆，而Google不行？

LLM时代，为什么Apple仍有底气自我颠覆，而Google不行？随着LLM时代的到来，科技公司面临着前所未有的挑战。在这个时代，Apple仍然能够保持其自我颠覆的能力，而Google却表现不佳。那么，为什么Apple能够做到这一点呢？1. Apple的产品设计Apple一直以来都以其出色的产品设计

分类标签 LLM时代Apple自我颠覆

11-30 08:02

谷歌通过Bard加强人工智能合作回应

谷歌通过Bard加强人工智能合作回应据外媒报道，Bard的产品负责人JackKrawczyk在接受采访时表示，Bard可以让消费者在新的人工智能的帮助下集思广益并获取信息，它正在为谷歌吸引更多客户奠定基础。其中一个机会是，该公司计划通过Bard的合作回应来激活其定时器设置、命令执行谷歌助手。Kraw

分类标签 Bard人工智能谷歌助手

11-26 02:20

谷歌升级机器人Bard，让用户轻松获取YouTube视频内容

谷歌升级机器人Bard，让用户轻松获取YouTube视频内容近日，谷歌宣布对其聊天机器人Bard进行了升级，使其能够快速地理解YouTube视频内容。Bard目前可以从视频资源库中提炼出有用信息以达到迅速回答用户提问的效果，帮助用户更深入透彻地了解YouTube影片内容。谷歌表示还在开发YouTub

分类标签谷歌Bard机器人YouTube视频内容用户需求

11-26 02:19

Google的BardAI聊天机器人现在可以回答与YouTube视频内容相关的具体问题

Google宣布其BardAI聊天机器人现在可以回答与YouTube视频内容相关的具体问题。尽管Bard在去年9月推出YouTube扩展功能时已具备分析YouTube视频的能力，但现在，聊天机器人可以为您提供有关视频内容的具体查询答案。公司在Bard更新页面上写道：「我们正在迈出Bard理解YouT

分类标签 GoogleBardAI聊天机器人YouTube视频

11-26 02:18

谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题

谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题谷歌的BardAI聊天机器人现在可以回答关于YouTube视频的问题。Bard通过扩展YouTubeExtension的功能，不仅可以找到特定视频，还可以回答与视频内容相关的具体问题，提供更深入的视频交流体验。在此次更新之前，Bar

分类标签 BardAI聊天机器人YouTube视频

11-24 10:05

Google人工智能聊天机器人Bard的YouTube整合功能得到升级

Google的人工智能聊天机器人巴德（Bard）在经历了乏善可陈的发布之后，已经逐渐变得越来越有用。现在，该机器人的YouTube整合功能得到了方便的升级，这样它就可以分析单个视频，为观众提供特定的信息--比如关键点或食谱成分--而无需按下播放键。这可能是一个非常有用的工具，但也可能让创作者更加担心

分类标签 Google人工智能聊天机器人

11-24 10:04

Bard聊天机器人：观众消化视频的利器，创作者的噩梦

Bard聊天机器人：观众消化视频的利器，创作者的噩梦在短视频逐渐占据上风的视频领域，另一大威胁正在慢慢靠近。“三分钟看完X电影”的短视频up主与“一分钟总结X电影”的人工智能即将进入正面交锋。更让up主们为难的是，他们很难回答到每一个观众的问题，但AI却没有这个烦恼。谷歌的Bard聊天机器人正是掀起

分类标签 Bard聊天机器人短视频人工智能

11-24 10:03

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway