基于模态注意力的端到端音视觉语音识别技术

新知榜官方账号

2023-10-03 06:36:12

创新点

介绍了基于模态注意力的端到端音视觉语音识别技术,该技术动态地融合了音视觉模态特征,并在实验上显著提高了语音识别的准确性和鲁棒性。在不同模态的特征融合过程中,该技术能够显式赋予恰当的权重以获得更加鲁棒的融合信息。

训练及结果

该技术在150h电视新闻类音视觉数据上进行了训练。实验表明,在0dB噪声情况下,该技术可以对LAS的纯语音识别取得相对36%的错误率下降。而且优于其他的音视觉结合方法。

意义

该技术具有普遍性,完全可以迁移到任何种类的多模态信息融合当中。同时,该技术在语音降噪的问题上采用音视觉结合的方法,利用多模态识别技术来提升噪声鲁棒性。该技术的性能已经达到了可以商用的水平,未来可用于语音输入场景和远场人机交互系统。

本页网址:https://www.xinzhibang.net/article_detail-15115.html

寻求报道,请 点击这里 微信扫码咨询

关键词

语音识别 唇语识别 模态注意力

分享至微信: 微信扫码阅读

相关文章