新知榜官方账号
2023-09-30 16:16:26
语音识别(ASR)是将声音转化为文字的过程,是语音交互中最基础的一个AI技术环节,常见的如siri,智能音箱等。
语音识别,大体可分为“传统”识别方式与“端到端”识别方式,其主要差异体现在声学模型上。“传统”方式的声学模型一般采用隐马尔可夫模型(HMM),而“端到端”方式一般采用深度神经网络(DNN)。
实际场景,有很多种异常情况,会导致语音识别的效果大打折扣,比如距离太远了,发音不标准,环境嘈杂,打断等等。所以,还需要有各种解决方案来配合。
远场语音识别,简称远场识别,是指在远离语音输入设备的情况下,通过麦克风阵列等技术实现语音识别。
麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
全双工是指能够同时进行语音识别和交互的技术,包含feature人声检测、智能断句、拒识和回声消除(AutomaticEchoCancellation,简称AEC,在播放的同时可以拾音)。
纠错是指根据场景/功能领域不同,AI来主动纠错,或者用户主动纠错,解决语音识别中同音字(词)等各种异常情况,导致识别出来的文字有偏差的问题。
总的来说,远场语音识别时,需要前后端结合去完成,包括在前端使用麦克风阵列硬件,对声源定位并通过自适应波束进行语音增强,在前端完成远场拾音,并解决噪声、混响、回声等带来的影响。另一方面,在后端的语音识别上,还需要结合基于大数据训练、针对远场环境的声学模型,才能较好解决识别率的问题。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49