新知榜官方账号
2023-09-30 16:16:26
语音识别(ASR)是将声音转化为文字的过程,是语音交互中最基础的一个AI技术环节,常见的如siri,智能音箱等。
语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。
实际场景,有很多种异常情况,会导致语音识别的效果大打折扣,比如距离太远了,发音不标准,环境嘈杂,打断等等。所以,还需要有各种解决方案来配合。
远场语音识别,简称远场识别,是指在远离语音输入设备的情况下,通过麦克风阵列等技术实现语音识别。
麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
全双工是指能够同时进行语音识别和交互的技术,包含feature人声检测、智能断句、拒识和回声消除(AutomaticEchoCancellation,简称AEC,在播放的同时可以拾音)。
纠错是指根据场景/功能领域不同,AI来主动纠错,或者用户主动纠错,解决语音识别中同音字(词)等各种异常情况,导致识别出来的文字有偏差的问题。
总的来说,远场语音识别时,需要前后端结合去完成,包括在前端使用麦克风阵列硬件,对声源定位并通过自适应波束进行语音增强,在前端完成远场拾音,并解决噪声、混响、回声等带来的影响。另一方面,在后端的语音识别上,还需要结合基于大数据训练、针对远场环境的声学模型,才能较好解决识别率的问题。
相关工具
相关文章
相关快讯
推荐
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19
15个作品涨粉26万!AI历史账号又出王炸案例!
2025-07-09 09:37
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15