谷歌的通用语音模型USM已支持100多个语种的自动识别检测

新知榜官方账号

2023-07-01 11:06:33

谷歌的通用语音模型USM已实现升级,支持100多个语种内容的自动识别检测。去年11月,谷歌曾计划创建一个支持1000个语种的AI模型USM。

USM被称为“最先进的通用语音模型”,拥有20亿个参数,经过涵盖1200万小时的语音、280亿个句子和300多个语种数据集的预训练。USM的强大效果已在Youtube的字幕生成中展现出来,可自动翻译和检测如英语、汉语等主流语种,还能识别出阿萨姆语这种小众语种,可以说“精通方言”。

TheVerge的记者称,除了相传将在今年的I/O开发者大会中展示的20多款AI驱动产品之外,谷歌目前还在朝着更高目标迈进——构建一个支持1000种语种的机器学习模型。

USM已被YouTube用于生成字幕,它还支持自动语音识别(ASR),可自动检测和翻译语言,不仅包括普通话、英语等广泛使用的语言,还包括阿姆哈拉语、宿务语、阿萨姆语等冷门语言。目前,谷歌称USM可支持检测100多个语种,并将作为构建更大的系统的“基础”。

USM使用的是标准的编码器-解码器架构,其中解码器是CTC、RNN-T和LAS,编码器使用的是Conformer或卷积增强变换器。据论文显示,对于USM的训练共分为三个步骤。第一步是使用BEST-RQ来对涵盖数百种语种的语音音频进行自我监督学习,已经在多语言任务上展示了最先进的结果,在使用了大量的无监督音频数据后的证明结果是有效的。第二步需要使用多目标监督预训练来整合来自于其他文本数据的信息。最后一步需要USM对下游任务进行微调,包括ASR(自动语音识别)和AST(自动语音翻译)。

USM的整体培训渠道对于USM的有效性,团队通过YoutubeCaption的多语言语音数据进行微调来验证。USM在73个语种当中实现了平均低于30%的单词容错率(WER),与当前内部最先进的模型相比降低了6%。

谷歌若想实现连接全球信息并使每个人都能自由访问的愿景,USM的开发将会是关键的一步,USM的基础模型框架和训练通道已经打下了一个基础,他们要做的就是在此基础上将语音模型扩展至1000种语言。

信息时代,科技进步将会进一步帮助各个国家地区的语言和文化突破地域的限制,很大程度上解决信息茧房带来的困扰。

本页网址:https://www.xinzhibang.net/article_detail-3816.html

寻求报道,请 点击这里 微信扫码咨询

关键词

谷歌 通用语音模型 USM 自动识别检测 语种

分享至微信: 微信扫码阅读

相关工具

相关文章