新知榜官方账号
2023-09-30 16:54:31
建立一个可以在各种语言、口音、环境和对话类型中理解人类语言的ASR系统,是一项非常复杂的任务。传统的ASR系统是将许多单独的模块集成一个流水线,其中每个模块都在前一个模块的输出上进行。原始音频数据从一端进入,然后从另一端输出识别语音转录内容。
典型的基于统计模式识别方法的语音识别系统一般会由信号处理及特征提取模块、声学模块、发音词典、语言模块和解码器等组成。在Kaldi工具包中,为了支持越来越多的终端用户应用程序,集成了更多的模块。在过去几年里,随着深度神经网络的发展,许多现有的ASR模块都被深度神经网络所取代,这种取代使得单词识别精度得到很大的提高。
但是在开发生产级的ASR系统时,仍然有许多问题需要克服:算法——深度学习算法在一些问题,例如声学环境(噪声)、特定语言发音、词汇范围等方面能够给出非常好的结果,但部署的过程中并不总是能很好的适应;数据——构建不同语言、不同声学环境的ASR系统需要大量的多种类型的数据,但我们可能没有恰好需要的这种数据。规模——一般能支持大量使用和许多种语言的ASR系统,通常会耗费大量的计算。
我们以ASR系统中的语言模块来说。语言模块是大多数先进的ASR系统的关键部分,他们主要依靠统计模型来揭示语言单元的内在统计规律,为整个系统提供了语言背景,有助于预测正确的单词序列,并且能够区分听起来相似的单词。随着近来机器学习方面的突破,语音识别开发人员正在使用基于深度学习的语言模型,被称为神经语言模型。这种神经语言模型的结果相比传统统计方法有显著的提升。但神经语言模型的训练和部署都是极为复杂且非常耗时的。
总部位于西雅图的IntelligentWire公司通过云软件来弥合实时手机通话和业务应用之间差距。为了使ASR系统在这种情况下有用,就必须保证它能以非常低的延迟、提供非常准确的转录,并且计算规模不能很大以有效地支持数千个并发对话。在这种需求下,IntelligentWire公司的YishayCarmiel和HainanXu带领的两支团队意识到这些困难,并共同合作完成了Kaldi和TensorFlow的集成。
将TensorFlow集成到Kaldi后,他们对ASR的开发周期减少了一个数量级。例如上面所说的语言模块,如果将TensorFlow应用到这个模块,那么从模型道概念验证可能只需要几天,而不是几个星期;对于整个ASR系统,开发周期也从几个月减少到了几个星期。此外,TensorFlow的集成也使Kaldi所需要的数据大为简化。将TensorFlow作为一个模块集成到Kaldi中,对于Kaldi研发人员来说,好处是巨大的。同样的,这种集成也让TensorFlow的开发人员能够轻松地访问强大的ASR平台,并且能够将现有的语音处理流程(如Kaldi强大的声学模型)纳入到机器学习应用程序中。Kaldi中的那些用于培训TensorFlow模型的模块可以不影响整体地进行替换,这对于扩展极为方便。此外,现在已经用到生产中的Kaldi系统可以用来评估这个集成模型的质量。
我们希望Kaldi-TensorFlow的集成能够将这两个充满活力的开放源码的开发社区更加贴近,共同支持各种新的基于语言的产品和研究的突破。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49