语言识别工作原理概述

新知榜官方账号

2023-10-03 07:00:36

语言识别工作原理概述

选择Python语音识别包PyPI中有一些现成的语音识别软件包。其中包括：

apiai
google-cloud-speech
pocketsphinx
SpeechRcognition
watson-developer-cloud
wit

安装SpeechRecognation

SpeechRecognition兼容Python2.6,2.7和3.3+，但若在Python2中使用还需要一些额外的安装步骤。本教程中所有开发版本默认Python3.3+。读者可使用pip命令从终端安装SpeechRecognition：

识别器类

SpeechRecognition的核心就是识别器类。RecognizerAPI主要目是识别语音，每个API都有多种设置和功能来识别音频源的语音，分别是：recognize_bing():MicrosoftBingSpeech recognize_google():GoogleWebSpeechAPI recognize_google_cloud():GoogleCloudSpeech-requiresinstallationofthegoogle-cloud-speechpackagerecognize_houndify():HoundifybySoundHound recognize_ibm():IBMSpeechtoText recognize_sphinx():CMUSphinx-requiresinstallingPocketSphinx recognize_wit():Wit.ai

相信你已经猜到了结果，怎么可能从空文件中识别出数据呢？这7个recognize_*()识别器类都需要输入audio_data参数，且每种识别器的audio_data都必须是SpeechRecognition的AudioData类的实例。AudioData实例的创建有两种路径：音频文件或由麦克风录制的音频，先从比较容易上手的音频文件开始。若是使用Linux系统下的x-86，macOS或者是Windows系统，需要支持FLAC文件。若在其它系统下运行，需要安装FLAC编码器并确保可以访问flac命令。

使用record()从文件中获取数据在解释器会话框键入以下命令来处理“harvard.wav”文件的内容：

利用偏移量和持续时间获取音频片段

若只想捕捉文件中部分演讲内容该怎么办？record()命令中有一个duration关键字参数，可使得该命令在指定的秒数后停止记录。例如，以下内容仅获取文件前四秒内的语音：

在事先知道文件中语音结构的情况下，offset和duration关键字参数对于分割音频文件非常有用。但使用不准确会导致转录不佳。

噪声对语音识别的影响

噪声在现实世界中确实存在，所有录音都有一定程度的噪声，而未经处理的噪音可能会破坏语音识别应用程序的准确性。要了解噪声如何影响语音识别，请下载“jackhammer.wav”（https://github.com/realpython/python-speech-recognition/tree/master/audio_files）文件，并确保将其保存到解释器会话的工作目录中。文件中短语“thestalesmellofoldbeerlingers”在是很大钻墙声的背景音中被念出来。因为使用adjust_for_ambient_noise（）命令时，默认将文件流的第一秒识别为音频的噪声级别，因此在使用record（）获取数据前，文件的第一秒已经被消耗了。可使用duration关键字参数来调整adjust_for_ambient_noise（）命令的时间分析范围，该参数单位为秒，默认为1，现将此值降低到0.5。可以看到，recognition_google（）返回了一个关键字为'alternative'的列表，指的是所有可能的响应列表。此响应列表结构会因API而异且主要用于对结果进行调试。

麦克风的使用

若要使用SpeechRecognizer访问麦克风则必须安装PyAudio软件包，请关闭当前的解释器窗口，进行以下操作：

安装测试

安装了PyAudio后可从控制台进行安装测试。

$python-mspeech_recognition

请确保默认麦克风打开并取消静音，若安装正常则应该看到如下所示的内容：

若系统没有默认麦克风（如在RaspberryPi上）或想要使用非默认麦克风，则需要通过提供设备索引来指定要使用的麦克风。读者可通过调用Microphone类的list_microphone_names（）函数来获取麦克风名称列表。

使用listen（）获取麦克风输入数据

准备好麦克风实例后，读者可以捕获一些输入。就像AudioFile类一样，Microphone是一个上下文管理器。可以使用with块中Recognizer类的listen（）方法捕获麦克风的输入。该方法将音频源作为第一个参数，并自动记录来自源的输入，直到检测到静音时自动停止。运行上面的代码后稍等片刻，尝试在麦克风中说“hello”。同样，必须等待解释器提示返回后再尝试识别语音。请记住，adjust_for_ambient_noise（）默认分析音频源中1秒钟长的音频。若读者认为此时间太长，可用duration参数来调整。

本页网址：https://www.xinzhibang.net/article_detail-15124.html

寻求报道，请

关键词

分享至微信：

相关工具

Veed AI Voice Generator

Veed推出的AI语音生成器

AssemblyAI

转录和理解语音的AI模型

IBM Watson文字转语音

IBM Watson文字转语音

Listnr

AI文本到语音生成器

WellSaid Labs

AI文本转语音工具

讯飞智作

科大讯飞推出的AI转语音和配音工具

Achronix如何降低ASR解决方案的成本

概述本篇白皮书详细介绍了自动语音识别（ASR）的应用场景，以及Achronix如何在实现ASR解决方案的同时将相关成本降低高达90%。交互式人工智能（CAI）简介什么是交互式人工智能（AI）？交互式人工智能（CAI）使用机器学习（ML）的子集深度学习（DL），通过机器实现语音识别、自然语言处理和文本

分类标签自动语音识别交互式人工智能CAINLPASRFPGA

12-07 22:33

如何做到每天进步

如何做到每天进步如果你现在没有那么厉害，不要紧，只要你努力，只要你尽力而为。首先，要明确跟自己比较的重要性。竞争是无处不在的，但是我们更应该关注的是自己的个人成长和发展。每天努力比上次做得更好，后天也是，天天比昨天好。我们要竭尽所能，不断进步，才能提高个人竞争力。其次，要制定目标和计划。明确自己的目

分类标签自我超越努力进步个人竞争力

11-30 16:12

8款AI智能软件，提高工作效率，解决日常问题

ChatGPTChatGPT是一款聊天机器人，可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。NotionAiNotion是一款强大的Al写作助手。它能根据输入的关键词，推荐相关的文章素材，可以帮助我们提高文章的质量和准确度。MidjourneyMidjo

分类标签 AI智能软件自媒体工作效率

11-28 08:47

谷歌推出适配Pixel手机的全神经元设备端语音识别器Gboard

最近华为和三星为新机像素互相掐架。神仙打架分外精彩，但智能手机，不是应该比谁更智能吗？大多数人都不知道Google有一个手机亲儿子——Pixel。近日网上有消息透露，谷歌将新推出Pixel3a和Pixel3aXL两款中端机型。比Google手机本身更惹人期待的是，可以适配所有Pixel手机的Gboa

分类标签谷歌Pixel手机语音识别器

11-20 10:16

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录国际顶级的语音技术圈会议INTERSPEECH2020于10月25-30日在中国上海举办，本次会议主题为“CognitiveIntelligenceforSpeechProcessing”。对话式人工智能平台公司

分类标签思必驰语音技术INTERSPEECH2020说话人识别语音识别口语语义理解

11-20 10:15

谷歌宣布增强Google Assistant技能，新增“阅读”功能

谷歌宣布新增“阅读”功能谷歌于今日宣布了一项名叫“阅读”（Readit）的Google Assistant增强技能。顾名思义，它可以帮助用户大声朗读网页文章、博客、或者短篇小说。在浏览相关网页的时候，你可唤出谷歌智能助理来执行这项操作，比如喊一声“Hey Google，Read this page”

分类标签谷歌GoogleAssistant阅读

11-20 10:14

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念早期的企业客户管理系统以SAP、Salesforce等为代表，通过打通企业内部的业务流，整合数据，帮助用户提升了运营效率。但随着互联网的发展以及消费市场竞争的加剧，获取全渠道、全触点消费者的体验信息并基于此改善企业产品服务逐渐成为重点，这一趋势在

分类标签 CEM客户体验管理视界信息

11-08 08:51

五款免费听歌APP推荐

五款免费听歌APP推荐现如今人们版权意识越来越高，音乐平台也开始了版权争夺战。以前每个平台都能听到喜欢的歌曲，现在却不得不在几个APP之间来回切换，实在是非常麻烦，也不知道这场版权争夺战什么时候能结束。但在此之前，我找到了5个非常不错的听歌APP分享给大家，希望各位都能在听歌的时候能够不受限制。1.

分类标签听歌APP免费下载播放器音乐平台

11-08 08:50

语音对话推荐：研究、数据集、评估与展望

引言近年来，推荐系统在工业界取得了巨大成功，甚至成为互联网发展中不可或缺的增长引擎，基于此研究者们也在积极探索推荐系统的新形态，其中对话推荐系统（Conversational Recommender System，简称CRS）作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多

分类标签语音对话推荐ConversationalRecommenderSystemVCRS

10-28 08:59

SoundHound或成AI语音助手竞赛中的大黑马

SoundHound或成AI语音助手竞赛中的大黑马据台湾《中时电子报》2月2日报道，除了Google Assistant、苹果Siri以及亚马逊Alexa之外，还有哪一款AI(人工智能)语音助手即将出头天？日前获得英伟达(NVIDIA)以及三星连手投资7500万美金的SoundHound，很可能将是

分类标签 AI语音助手SoundHound自动驾驶

10-28 08:57