新知榜官方账号
2023-07-01 11:04:33
在Nvidia今天的语音人工智能峰会上,该公司宣布了其新的语音人工智能(AI)生态系统,该生态系统是通过与MozillaCommonVoice合作开发的。该生态系统专注于开发众包多语言语音语料库和开源预训练模型。
Nvidia和MozillaCommonVoice旨在加速自动语音识别模型的发展,该模型普遍适用于全球每种语言的使用者。Nvidia发现标准语音助手,如AmazonAlexa和GoogleHome,支持不到1%的世界口语。为了解决这个问题,该公司旨在提高语音AI中的语言包容性,并扩大全球和资源匮乏语言的语音数据的可用性。
英伟达正在加入Meta和谷歌已经在进行的一场竞赛:最近,两家公司都发布了语音AI模型,以帮助说不同语言的人之间进行交流。Google的语音到语音AI翻译模型TranslationHub可以将大量文档翻译成多种不同的语言。谷歌还刚刚宣布,它正在构建一个通用语音翻译器,经过400多种语言的培训,并声称它是“当今语音模型中最大的语言模型覆盖率”。同时,MetaAI的通用语音翻译器(UST)项目有助于创建AI系统,实现跨所有语言的实时语音到语音翻译,即使是那些口语但不常用的语言。
面向全球语言用户的生态系统根据Nvidia的说法,语音AI的语言包容性具有全面的数据健康益处,例如帮助AI模型了解说话者的多样性和噪声谱。新的语音AI生态系统可帮助开发人员构建、维护和改进语音AI模型和数据集,以实现语言包容性、可用性和体验。用户可以在MozillaCommonVoice数据集上训练他们的模型,然后将这些预训练模型作为高质量的自动语音识别架构提供。然后,全球其他组织和个人可以调整和使用这些架构来构建他们的语音AI应用程序。
“人口多样性是捕捉语言多样性的关键,”Nvidia产品经理CarolinedeBritoGottlieb说。“有几个重要因素会影响语音变化,例如服务不足的方言、社会方言、口音。通过这种合作伙伴关系,我们的目标是创建一个数据集生态系统,帮助社区为任何语言或上下文构建语音数据集和模型。”
MozillaCommonVoice平台目前支持100种语言,拥有来自全球500,000名贡献者的24,000小时语音数据。最新版本的CommonVoice数据集还包含六种新语言——Tigre、MeadowMari、Bengali、TokiPona和Cantonese,以及来自女性演讲者的更多语音数据。通过MozillaCommonVoice平台,用户可以通过将句子录制为短语音片段来捐赠他们的音频数据集,Mozilla会在提交时对其进行验证以确保数据集质量。
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49