使用TensorFlow.js进行语音识别-语音命令 - AI工具

首页 > 行业观察 > 使用TensorFlow.js进行语音识别-语音命令

使用TensorFlow.js进行语音识别-语音命令

新知榜官方账号

2023-12-03 16:14:26

迁移学习语音识别如何工作？

从历史上看，图像分类是普及深度神经网络的问题，尤其是视觉类型的神经网络——卷积神经网络（CNN）。今天，迁移学习用于其他类型的机器学习任务，如NLP和语音识别。我们不会详细介绍什么是CNN以及它们是如何工作的。然而，我们可以说CNN在2012年打破了ImageNet大规模视觉识别挑战赛（ILSVRC）的记录后得到了普及。该竞赛评估大规模对象检测和图像分类的算法。他们提供的数据集包含1000个图像类别和超过1万张图像。图像分类算法的目标是正确预测对象属于哪个类。自2年以来。本次比赛的每位获胜者都使用了CNN。训练深度神经网络可能具有计算性和耗时性。要获得真正好的结果，您需要大量的计算能力，这意味着大量的GPU，这意味着......嗯，很多钱。当然，您可以训练这些大型架构并在云环境中获得SOTA结果，但这也非常昂贵。有一段时间，这些架构对普通开发人员不可用。然而，迁移学习的概念改变了这种情况。特别是，对于这个问题，我们今天正在解决-语音识别。今天，我们可以使用最先进的架构，这些架构在ImageNet竞赛中获胜，这要归功于迁移学习和预训练模型。

预训练模型

预训练模型是以前在大型数据集上训练的保存网络。有两种方法可以使用它们。您可以将其用作开箱即用的解决方案，也可以将其与迁移学习一起使用。因为大型数据集通常用于某些全局解决方案，所以您可以自定义预先训练的模型并将其专门用于某些问题。通过这种方式，您可以利用一些最著名的神经网络，而不会在训练上浪费太多时间和资源。此外，您还可以通过修改所选图层的行为来微调这些模型。整个想法围绕着使用较低层的预训练CNN模型，并添加额外的层，这些层将为特定问题定制架构。从本质上讲，严肃的迁移学习模型通常由两部分组成。我们称它们为骨干和头脑。主干通常是在ImageNet数据集上预先训练的深度架构，没有顶层。Head是图像分类模型的一部分，用于预测自定义类。这些层将添加到预训练模型的顶部。有了这些系统，我们有两个阶段：瓶颈和培训阶段。在瓶颈阶段，特定数据集的图像通过主干架构运行，并存储结果。在训练阶段，来自主干的存储输出用于训练自定义层。有几个领域适合使用预先训练的模型，语音识别就是其中之一。此模型称为语音命令识别器。从本质上讲，它是一个JavaScript模块，可以识别由简单英语单词组成的口语命令。

语音识别如何工作？

当涉及到神经网络和音频的组合时，有很多方法。语音通常使用某种递归神经网络或LSTM来处理。但是，语音命令识别器使用称为卷积神经网络的简单体系结构，用于小占用量关键字发现。这种方法基于我们在上一篇文章中研究的图像识别和卷积神经网络。乍一看，这可能会令人困惑，因为音频是一个跨时间的一维连续信号，而不是2D空间问题。

谱图

此体系结构使用频谱图。这是信号频率频谱随时间变化的视觉表示。从本质上讲，定义了单词应该适合的时间窗口。这是通过将音频信号样本分组到段来完成的。完成此操作后，将分析频率的强度，并定义具有可能单词的段。然后将这些片段转换为频谱图，例如用于单词识别的单通道图像：然后，使用这种预处理制作的图像被馈送到多层卷积神经网络中。

演示

本文提供了一个使用语音命令进行绘制的演示。您可以使用命令“向上”，“向下”，“向左”和“右”在下面的画布上绘制。为了使此演示正常工作，您必须允许它使用麦克风。

使用TensorFlow.js实现语音识别

我们可以轻松地使用预先训练的TensorFlow.js模型。它们是一些简单应用程序的良好起点。我们甚至构建了一个此类应用程序的示例，您可以使用它使用语音命令进行绘制。这很酷，可能性是无穷无尽的。当然，您可以进一步训练这些模型，获得更好的结果，并将它们用于更复杂的解决方案。这意味着，您可以真正利用迁移学习。然而，这是另一个时代的故事。

本页网址：https://www.xinzhibang.net/article_detail-21868.html

寻求报道，请

关键词

TensorFlow.js 语音识别迁移学习卷积神经网络预训练模型语音命令

分享至微信：

相关工具

Wonder Studio

AI自动为CG角色制作动画、打光并将其合成到真人场景中

Neurodub

端到端的AI视频语音本地化工具

SteveAI

Animaker旗下AI在线视频制作工具

Hour One

人工智能文字到视频生成

奇妙元

AI数字人视频生成平台，由出门问问推出

Colossyan

AI虚拟人出镜视频生成

人工智能生成内容（AIGC）的发展、应用、技术原理和优势与挑战

发展历程AIGC指的是利用人工智能算法，如机器学习和深度学习，来自动创作新的内容。从最初的文本自动生成软件到现在能够创作复杂艺术作品的系统，AIGC技术经历了快速的发展。这一过程中，技术如GPT-3、DALL-E等的问世，标志着AIGC领域的重要里程碑。应用领域AIGC的应用领域广泛。在文学、艺术、

人工智能生成内容AIGC

12-09 22:11

谷歌大脑团队2017年度总结

谷歌大脑团队2017年度总结作为谷歌AI帝国的重要部分，谷歌大脑团队一直致力于通过研究和系统工程来推动人工智能领域的发展。去年他们分享了2016年的工作总结。在接下来的一年中，他们在制造智能机器的长期研究中不断取得进步，并与来自Google和Alphabet的其他团队合作，利用研究成果来为人类造福。

谷歌大脑团队人工智能机器学习

12-03 16:13

英语哑音字母发音规律

英语哑音字母发音规律学习英语哑音字母的发音规律，掌握规律可以少走弯路。哑音字母b：字母b在m之后或t之前且mb,bt处于单词的末尾时(注意：member中的b发音，因为mb不在词尾)，b往往不发音。如：(1)bomb炸弹；climb爬；comb梳子；lamb羊羔；limb手足thumb拇指。(2)d

英语哑音字母发音规律

11-30 16:15

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？

在西门子Avanto和Essenza等机型上如何设置音乐播放功能？在Avanto和Essenza这种机型上，操作盘是如下图所示款式。那么在这些机型上如何设置达到播放音乐的功能呢？首先把上方图中橙色框选中的（3）开关掰到CV处，否则即便后续设置好了也无法听到声音。注意：有些时候在培训初装机的现场遇到无

西门子AvantoEssenza音乐播放设置

11-30 16:14

谷歌推出基于RNN-T的全神经元设备端语音识别器解决识别延迟难题

在近二十年来，尤其是引入深度学习以后，语音识别取得了一系列重大突破，并一步步走向市场并搭载到消费级产品中。然而在用户体验上，「迟钝」可以算得上这些产品最大的槽点之一，这也意味着语音识别的延迟问题已经成为了该领域研究亟待解决的难点。日前，谷歌推出了基于循环神经网络变换器（RNN-T）的全神经元设备端语

谷歌RNN-T语音识别延迟问题全神经元设备端

11-30 16:13

精准可控的AI动画制作流程

精准可控的AI动画制作流程今天给大家介绍一下被低估的AI视频制作工具Runway。这支视频大概花了半个小时，由Midjourney生成底图，然后用Runwaymotionbrush精准控制动画，从而完成创作。我花1分钟介绍一下这个工作流程。首先打开Midjourney，生成好看的底图。然后开局部重绘

AI视频制作工具Runway动画制作

11-23 22:14

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频

AI视频创作工具Runway推出“运动笔刷”功能，让静态图秒变动态视频11月21日，Runway的Gen-2视频生成模型正式上线“运动笔刷”（MotionBrush）功能。顾名思义，它可以让一切你需求的对象元素活动起来。刷哪里，哪里就会自己动！只需对着下图的小船随手一刷，就能让被选中的目标滑行起来！

AI视频创作工具Runway运动笔刷

11-23 22:12

视频变声的方法和工具

视频变声的方法和工具在制作视频时，有时候我们可能需要给视频添加一些特殊的音效来增加趣味性或创造特定的效果。其中，变声是一个常见的音效处理方式，可以改变视频中人物或配音的声音。使用音频编辑软件我们可以使用各种音频编辑软件来进行视频变声，例如Audacity。在软件中，我们可以使用各种效果器，实现不同的

视频变声音效处理音频编辑软件

11-13 16:20

拍乐云音频变声接口实现教程

背景介绍在泛娱乐社交和互动游戏场景中，用户已不再满足于高清的音质体验和实时的互动效果，他们还想要增加趣味性和沉浸感，让声音变得好玩有趣。拍乐云Pano上线了音频变声接口，开发者可以通过PanoSDK设置不同的变声效果，如大叔音、小姐姐音、萝莉音、山谷音、惊悚音、困兽音等，增强语聊乐趣。实现步骤1.

拍乐云音频变声PanoSDK

11-13 16:19

8款AI智能软件推荐

1. ChatGPTChatGPT是一款多功能聊天机器人，可以帮助我们提高工作效率，解决日常问题。它不仅可以聊天交流，还可以写邮件、写论文、写视频脚本、翻译、敲代码等。2. NotionAiNotionAi是一款强大的AI写作助手，可以根据关键词推荐相关素材，提高文章的质量和准确度。3. Midjo

AI智能软件免费软件自媒体工具

10-03 23:04