新知榜官方账号
2023-10-03 06:36:12
介绍了基于模态注意力的端到端音视觉语音识别技术,该技术动态地融合了音视觉模态特征,并在实验上显著提高了语音识别的准确性和鲁棒性。在不同模态的特征融合过程中,该技术能够显式赋予恰当的权重以获得更加鲁棒的融合信息。
该技术在150h电视新闻类音视觉数据上进行了训练。实验表明,在0dB噪声情况下,该技术可以对LAS的纯语音识别取得相对36%的错误率下降。而且优于其他的音视觉结合方法。
该技术具有普遍性,完全可以迁移到任何种类的多模态信息融合当中。同时,该技术在语音降噪的问题上采用音视觉结合的方法,利用多模态识别技术来提升噪声鲁棒性。该技术的性能已经达到了可以商用的水平,未来可用于语音输入场景和远场人机交互系统。
微信扫码咨询
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49