谷歌推出基于RNN-T的全神经元设备端语音识别器解决识别延迟难题

新知榜官方账号

2023-11-30 16:13:30

在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语音识别器，能够很好地解决目前语音识别所存在的延迟难题。谷歌也将这项成果发布在了官方博客上，AI科技评论进行编译如下。

2012年，语音识别研究表明，通过引入深度学习可以显著提高语音识别准确率，因此谷歌也较早地在语音搜索等产品中采用深度学习技术。而这也标志着语音识别领域革命的开始：每一年，谷歌都开发出了从深度神经网络（DNN）到循环神经网络（RNN）、长短期记忆网络（LSTM）、卷积网络（CNNs）等一系列新的架构，进一步地提高了语音识别的质量。然而在此期间，延迟问题依旧是该领域需要攻克的主要难点——当语音助手能够实现快速回答问题时，用户会感觉它有帮助得多。

日前，谷歌正式宣布推出端到端、全神经元的设备端语音识别器，为Gboard中的语音输入提供支持。在谷歌AI最近的一篇论文《移动设备的流媒体端到端语音识别》（StreamingEnd-to-EndSpeechRecognitionforMobileDevices，论文阅读地址：https://arxiv.org/abs/1811.06621）中，其研究团队提出了一种使用循环神经网络变换器（RNN-T，https://arxiv.org/pdf/1211.3711.pdf）技术训练的模型，该技术也足够精简可应用到手机端上。这就意味着语音识别不再存在网络延迟或故障问题——新的识别器即便处于离线状态也能够运行。该模型处理的是字符水平的语音识别，因此当人在说话时，它会逐个字符地输出单词，这就跟有人在实时键入你说的话一样，同时还能达到你对键盘听写系统的预期效果。

该图对比了识别同一句语音时，服务器端语音识别器（左边）以及新的设备端语音识别器（右边）的生成情况。图源：AkshayKannan，ElnazSarbar

循环神经网络变换器（RNN-T）是不采用注意力机制的序列到序列模型的一种形式。与大多数序列到序列模型需要处理整个输入序列以生成输出不同，RNN-T能持续地处理输入的样本和数据流，并进行符号化的输出，这种符号化的输出有助于进行语音听写。在谷歌研究人员的实现中，符号化的输出就是字母表中的字符。当人在说话时，RNN-T识别器会逐个输出字符，并进行适当留白。在这一过程中，RNN-T识别器还会有一条反馈路径，将模型预测的符号输回给自己以预测接下来的符号，具体流程如下图所示：

RNN-T的表示：用x表示输入语音样本；用y表示预测的符号。预测的符号（Softmax层的输出）y（u-1）通过预测网络被输回给模型，确保预测同时考虑到当前的语音样本以及过去的输出。预测和解码网络都是LSTMRNN，联合的模型则是前馈网络（feedforwardnetwork，相关论文查看地址：https://www.isca-speech.org/archive/Interspeech_2017/pdfs/0233.PDF）。预测网络由2个拥有2048个单元的层和1个有着640个维度的投射层组成。解码网络则由8个这样的层组成。图源：ChrisThornton

谷歌全新的全神经元设备端Gboard语音识别器，刚开始仅能在使用美式英语的Pixel手机上使用。考虑到行业趋势，同时随着专业化硬件和算法的融合不断增强，谷歌表示，希望能够将这一技术应用到更多语言和更广泛的应用领域中去。

本页网址：https://www.xinzhibang.net/article_detail-21521.html

寻求报道，请

关键词

谷歌 RNN-T 语音识别延迟问题全神经元设备端

分享至微信：

相关工具

Fliki

AI文字转视频并配音

DreamFace

让图片动起来的AI工具

Rask

AI视频本地化解决方案

Synthesys

AI虚拟人出镜讲解

Runway

强大的AI视频制作工具，绿幕抠像、视频合成等

HeyGen

AIGC 视频创建平台，生成吸引人的商业视频

人工智能生成内容（AIGC）的发展、应用、技术原理和优势与挑战

发展历程AIGC指的是利用人工智能算法，如机器学习和深度学习，来自动创作新的内容。从最初的文本自动生成软件到现在能够创作复杂艺术作品的系统，AIGC技术经历了快速的发展。这一过程中，技术如GPT-3、DALL-E等的问世，标志着AIGC领域的重要里程碑。应用领域AIGC的应用领域广泛。在文学、艺术、

分类标签人工智能生成内容AIGC

12-09 22:11

使用TensorFlow.js进行语音识别-语音命令

迁移学习语音识别如何工作？从历史上看，图像分类是普及深度神经网络的问题，尤其是视觉类型的神经网络——卷积神经网络（CNN）。今天，迁移学习用于其他类型的机器学习任务，如NLP和语音识别。我们不会详细介绍什么是CNN以及它们是如何工作的。然而，我们可以说CNN在2012年打破了ImageNet大规模

分类标签 TensorFlow.js语音识别迁移学习卷积神经网络预训练模型语音命令

12-03 16:14

谷歌大脑团队2017年度总结

谷歌大脑团队2017年度总结作为谷歌AI帝国的重要部分，谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了2016年的工作总结。在接下来的一年中，他们在制造智能机器的长期研究中不断取得进步，并与来自Google和Alphabet的其他团队合作，利用研究成果来为人类造福。

分类标签谷歌大脑团队人工智能机器学习

12-03 16:13

英语哑音字母发音规律

英语哑音字母发音规律学习英语哑音字母的发音规律，掌握规律可以少走弯路。哑音字母b：字母b在m之后或t之前且mb,bt处于单词的末尾时(注意：member中的b发音，因为mb不在词尾)，b往往不发音。如：(1)bomb炸弹；climb爬；comb梳子；lamb羊羔；limb手足thumb拇指。(2)d

分类标签英语哑音字母发音规律

11-30 16:15

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？在Avanto和Essenza这种机型上，操作盘是如下图所示款式。那么在这些机型上如何设置达到播放音乐的功能呢？首先把上方图中橙色框选中的（3）开关掰到CV处，否则即便后续设置好了也无法听到声音。注意：有些时候在培训初装机的现场遇到无

分类标签西门子AvantoEssenza音乐播放设置

11-30 16:14

精准可控的AI动画制作流程

精准可控的AI动画制作流程今天给大家介绍一下被低估的AI视频制作工具Runway。这支视频大概花了半个小时，由Midjourney生成底图，然后用Runwaymotionbrush精准控制动画，从而完成创作。我花1分钟介绍一下这个工作流程。首先打开Midjourney，生成好看的底图。然后开局部重绘

分类标签 AI视频制作工具Runway动画制作

11-23 22:14

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频11月21日，Runway的Gen-2视频生成模型正式上线“运动笔刷”（MotionBrush）功能。顾名思义，它可以让一切你需求的对象元素活动起来。刷哪里，哪里就会自己动！只需对着下图的小船随手一刷，就能让被选中的目标滑行起来！

分类标签 AI视频创作工具Runway运动笔刷

11-23 22:12

视频变声的方法和工具

视频变声的方法和工具在制作视频时，有时候我们可能需要给视频添加一些特殊的音效来增加趣味性或创造特定的效果。其中，变声是一个常见的音效处理方式，可以改变视频中人物或配音的声音。使用音频编辑软件我们可以使用各种音频编辑软件来进行视频变声，例如Audacity。在软件中，我们可以使用各种效果器，实现不同的

分类标签视频变声音效处理音频编辑软件

11-13 16:20

拍乐云音频变声接口实现教程

背景介绍在泛娱乐社交和互动游戏场景中，用户已不再满足于高清的音质体验和实时的互动效果，他们还想要增加趣味性和沉浸感，让声音变得好玩有趣。拍乐云Pano上线了音频变声接口，开发者可以通过PanoSDK设置不同的变声效果，如大叔音、小姐姐音、萝莉音、山谷音、惊悚音、困兽音等，增强语聊乐趣。实现步骤1.

分类标签拍乐云音频变声PanoSDK

11-13 16:19

8款AI智能软件推荐

1. ChatGPTChatGPT是一款多功能聊天机器人，可以帮助我们提高工作效率，解决日常问题。它不仅可以聊天交流，还可以写邮件、写论文、写视频脚本、翻译、敲代码等。2. NotionAiNotionAi是一款强大的AI写作助手，可以根据关键词推荐相关素材，提高文章的质量和准确度。3. Midjo

分类标签 AI智能软件免费软件自媒体工具

10-03 23:04