谷歌推出适配Pixel手机的全神经元设备端语音识别器Gboard

新知榜官方账号

2023-11-20 10:16:24

最近华为和三星为新机像素互相掐架。神仙打架分外精彩，但智能手机，不是应该比谁更智能吗？大多数人都不知道Google有一个手机亲儿子——Pixel。近日网上有消息透露，谷歌将新推出Pixel3a和Pixel3aXL两款中端机型。比Google手机本身更惹人期待的是，可以适配所有Pixel手机的Gboard语音识别器。这款全神经元设备端语音识别器，具有同步转录、离线识别等特点。通过谷歌最新的（RNN-T）技术训练构建，精度超过CTC，只有80M，可直接在设备上运行。这款新的语音识别不再会有网络延迟或故障问题——新的识别器即便处于离线状态也能够运行。该模型能以字符水平进行语音识别，因此当人在说话时，它会逐个字符地输出单词，就像有人在实时键入你说的话，它绝对能满足人们对键盘听写系统的期望。

Gboard，很大程度上实现了语音识别的“快、准、狠”。堪称里程碑之作。相比之下，华为的语音识别逊色不少。

传统的语音识别系统由将音频片段映射到音素的声学模型、将音素合成单词的发音模型以及表达给定短语可能性的语言模型组成。在早期系统中，对这些组件的优化都是独立进行的。2014年左右，研究人员开始专注训练单个神经网络，直接将输入音频波形映射到一个输出句子上。研究人员通过这种方法，开发出了「attention-based」和「listen-attend-spell」模型。虽然这些模型准确率不错，但是它们通常是回顾整个输入序列来识别语音，且在输入时不允许数据流输出，这是实时语音转录的缺憾。当时，有一项“连接时差分类技术（CTC）”可以帮助将生产式识别器的延迟减半。事实证明，这项进展对于开发出CTC最新版本中采用的RNN-T架构来说（该版本可看成是CTC的泛化），是至关重要的一步。循环神经网络传感器RNN-Ts是一种不采用attention机制的“序列到序列”模型。大多数序列到序列模型通常需要处理整个输入序列以生成输出，但RNN-T不同，它能持续地处理输入的样本和数据流，并进行符号化的输出，这种符号化的输出有助于语音听写。

在谷歌研究人员的实际操作中，符号化的输出就是字母表中的字符。当人说话时，RNN-T识别器会逐个输出字符，并在适当的位置输入空格。在这一过程中，RNN-T识别器还会有一条反馈路径，将模型预测的符号输回以预测接下来的符号。RNN-T的表示：用x表示输入的语音样本；用y表示预测的符号。预测符号（Softmax层的输出）通过预测网络(如yu-1)被反馈到模型中，确保预测同时适用于音频样本及过去的输出。预测和解码网络都是LSTMRNNs，联合的模型则是前馈网络。预测网络由两层共2048个单元的层组成，具有640维投影层。解码网络则由8个这样的层组成。

谷歌开发了一种新的训练技术，进一步降低了5％的单词错误率，同时也对计算能力提出了更高的要求。为了解决这个问题，谷歌开发了一种能平行实现的方法，让RNN-T的损失函数可以在Google的高性能CloudTPUv2芯片上大批量运行。这使得训练的速度提高了大约3倍。

谷歌还试图通过直接在设备上托管新模型来避免通信网络的延迟和固有的不可靠性。因此，谷歌提出了端到端的方法，它不需要在大型解码器图上进行搜索。相反，它采取对单个神经网络进行一系列搜索的方式进行解码。谷歌训练的RNN-T能达到与传统的基于服务器的模型相同的准确度，但模型大小只有450MB，本质上更加智能地利用了参数和打包信息。与经过训练的浮点模型相比，模型量化的压缩高出4倍，运行速度也提高了4倍，从而让RNN-T比单核上的实时语音运行得更快。经过压缩后，模型最终缩小至80MB。

本页网址：https://www.xinzhibang.net/article_detail-20566.html

寻求报道，请

关键词

分享至微信：

相关工具

Voicemod

AI变声工具

魔音工坊

短视频/有声书AI配音平台，由出门问问推出

Mubert

AI BGM背景音乐生成工具

Notta

AI在线将语音转换成文字

Listnr

AI文本到语音生成器

Boomy

AI音乐生成工具

Achronix如何降低ASR解决方案的成本

概述本篇白皮书详细介绍了自动语音识别（ASR）的应用场景，以及Achronix如何在实现ASR解决方案的同时将相关成本降低高达90%。交互式人工智能（CAI）简介什么是交互式人工智能（AI）？交互式人工智能（CAI）使用机器学习（ML）的子集深度学习（DL），通过机器实现语音识别、自然语言处理和文本

分类标签自动语音识别交互式人工智能CAINLPASRFPGA

12-07 22:33

如何做到每天进步

如何做到每天进步如果你现在没有那么厉害，不要紧，只要你努力，只要你尽力而为。首先，要明确跟自己比较的重要性。竞争是无处不在的，但是我们更应该关注的是自己的个人成长和发展。每天努力比上次做得更好，后天也是，天天比昨天好。我们要竭尽所能，不断进步，才能提高个人竞争力。其次，要制定目标和计划。明确自己的目

分类标签自我超越努力进步个人竞争力

11-30 16:12

8款AI智能软件，提高工作效率，解决日常问题

ChatGPTChatGPT是一款聊天机器人，可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。NotionAiNotion是一款强大的Al写作助手。它能根据输入的关键词，推荐相关的文章素材，可以帮助我们提高文章的质量和准确度。MidjourneyMidjo

分类标签 AI智能软件自媒体工作效率

11-28 08:47

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录国际顶级的语音技术圈会议INTERSPEECH2020于10月25-30日在中国上海举办，本次会议主题为“CognitiveIntelligenceforSpeechProcessing”。对话式人工智能平台公司

分类标签思必驰语音技术INTERSPEECH2020说话人识别语音识别口语语义理解

11-20 10:15

谷歌宣布增强Google Assistant技能，新增“阅读”功能

谷歌宣布新增“阅读”功能谷歌于今日宣布了一项名叫“阅读”（Readit）的Google Assistant增强技能。顾名思义，它可以帮助用户大声朗读网页文章、博客、或者短篇小说。在浏览相关网页的时候，你可唤出谷歌智能助理来执行这项操作，比如喊一声“Hey Google，Read this page”

分类标签谷歌GoogleAssistant阅读

11-20 10:14

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念早期的企业客户管理系统以SAP、Salesforce等为代表，通过打通企业内部的业务流，整合数据，帮助用户提升了运营效率。但随着互联网的发展以及消费市场竞争的加剧，获取全渠道、全触点消费者的体验信息并基于此改善企业产品服务逐渐成为重点，这一趋势在

分类标签 CEM客户体验管理视界信息

11-08 08:51

五款免费听歌APP推荐

五款免费听歌APP推荐现如今人们版权意识越来越高，音乐平台也开始了版权争夺战。以前每个平台都能听到喜欢的歌曲，现在却不得不在几个APP之间来回切换，实在是非常麻烦，也不知道这场版权争夺战什么时候能结束。但在此之前，我找到了5个非常不错的听歌APP分享给大家，希望各位都能在听歌的时候能够不受限制。1.

分类标签听歌APP免费下载播放器音乐平台

11-08 08:50

语音对话推荐：研究、数据集、评估与展望

引言近年来，推荐系统在工业界取得了巨大成功，甚至成为互联网发展中不可或缺的增长引擎，基于此研究者们也在积极探索推荐系统的新形态，其中对话推荐系统（Conversational Recommender System，简称CRS）作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多

分类标签语音对话推荐ConversationalRecommenderSystemVCRS

10-28 08:59

SoundHound或成AI语音助手竞赛中的大黑马

SoundHound或成AI语音助手竞赛中的大黑马据台湾《中时电子报》2月2日报道，除了Google Assistant、苹果Siri以及亚马逊Alexa之外，还有哪一款AI(人工智能)语音助手即将出头天？日前获得英伟达(NVIDIA)以及三星连手投资7500万美金的SoundHound，很可能将是

分类标签 AI语音助手SoundHound自动驾驶

10-28 08:57

微撰AI人工智能对话的实现和功能分析

引言随着人工智能技术的不断发展，人工智能对话已经成为人们日常生活的一部分。微撰作为一款AI工具，具备多种AI功能，包括ai写作、ai聊天、文案写作、批量生成等，可以通过对话实现与用户的交互。本文将探讨如何实现ai人工智能对话，并结合微撰的功能进行分析。如何实现ai人工智能对话要实现ai人工智能对话，

分类标签微撰AI人工智能对话写作聊天文案写作批量生成

10-28 08:56