人工智能之语音识别(ASR),AI产品经理必须知道的语音识别技术原理!

新知榜官方账号

2023-09-30 16:16:26

语音识别(ASR)的核心概念

语音识别(ASR)是将声音转化为文字的过程,是语音交互中最基础的一个AI技术环节,常见的如siri,智能音箱等。

1.语音识别原理流程

语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。

实际场景,有很多种异常情况,会导致语音识别的效果大打折扣,比如距离太远了,发音不标准,环境嘈杂,打断等等。所以,还需要有各种解决方案来配合。

2.远场语音识别(FarfieldVoiceRecognition)

远场语音识别,简称远场识别,是指在远离语音输入设备的情况下,通过麦克风阵列等技术实现语音识别。

3.麦克风阵列(MicrophoneArray)

麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。

4.全双工(Full-Duplex)

全双工是指能够同时进行语音识别和交互的技术,包含feature人声检测、智能断句、拒识和回声消除(AutomaticEchoCancellation,简称AEC,在播放的同时可以拾音)。

5.纠错

纠错是指根据场景/功能领域不同,AI来主动纠错,或者用户主动纠错,解决语音识别中同音字(词)等各种异常情况,导致识别出来的文字有偏差的问题。

总的来说,远场语音识别时,需要前后端结合去完成,包括在前端使用麦克风阵列硬件,对声源定位并通过自适应波束进行语音增强,在前端完成远场拾音,并解决噪声、混响、回声等带来的影响。另一方面,在后端的语音识别上,还需要结合基于大数据训练、针对远场环境的声学模型,才能较好解决识别率的问题。

本页网址:https://www.xinzhibang.net/article_detail-14512.html

寻求报道,请 点击这里 微信扫码咨询

关键词

语音识别 ASR 远场语音识别 麦克风阵列 纠错 全双工

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯