IBM沃森团队在会话语音识别任务中创造了6.9%的词错率新纪录

新知榜官方账号

2023-07-29 09:24:33

IBM沃森团队在会话语音识别任务中创造了6.9%的词错率新纪录

近日,IBM沃森团队宣布在会话语音识别任务中,他们的系统创造了6.9%的词错率新纪录。

要想正确看待这一结果,先让我们回到1995年,一个「高性能」的IBM识别器实现了43%的错误率。在90年代末和00年代初DARPA(美国国防先进研究项目局)资助的一系列语音识别评估的推动下,我们的系统稳步提高,并在2004年以15.2%的词错率赢得了2004EARSRichTranscription评估比赛第一名。而最近,深度神经网络的出现在帮助我们取得8%和6.9%的成绩上发挥了关键性的作用。

我们项目的最终目标是达到或超过人类准确度,也就是大约4%的语音识别词错率。6.9%的错误率之所以成为可能,是因为声学和语言建模两方面技术的提高。

在声学方面,我们融合了两个强大的深度神经网络,这两个神经网络可以从输入音频中预测依赖于语境的语音。该模型基于来自Switchboard、Fisher和CallHome公开可用的2000个小时的转录音频进行训练。第一个模型是一个能够记忆过去的声学-语音事件的循环神经网络[1]。自去年以来,通过使用maxout激活函数(从前一层执行神经元的空间池化)取代常见的S型非线性函数,该模型得到了提升。和S型神经元相反,maxout神经元使用一种我们介绍过的全新形式的annealeddropout进行训练,这种形式在训练过程中专门检测相关特征。我们的第二个模型被称为非常深度卷积神经网络(verydeepCNN),它起源于图像分类[4]。如果我们用时间和频率两个维度来考虑音频信号的频谱表征,那么语音就可以被视为图像。与应用在我们之前的系统中的经典CNN架构([5]具有大内核(通常为9×9)的仅一个或两个卷积层)相反,我们的非常深度CNN具有小的3×3内核的多达10个卷积层,这能够保存输入的维数。通过在池化层之前将这些卷积层与线性修正函数(RectifiedLinearUnit)非线性进行结合,具有更少参数和更多非线性的同样的接受域(receptivefield)被创造了出来。这两个在架构和输入表征上有很大不同的模型表现出了非常好的互补性,它们的组合带来了超越单个最好模型的额外增益。

在语言建模方面,我们使用了一序列越来越精致的语言模型(LM)。其基准是一个在多种公开可用的语料库上进行评估的n-gram语言模型,这些语料库包括Switchboard、Fisher、Gigaword和BroadcastNewsandConversations。使用一种基于指数类的被称为模型M(modelM)的语言模型对通过使用这种语言模型解码获得的假设进行再评级[7]。模型M中的「M」是指「medium(媒介)」,即该模型处于语言模型中「恰到好处的」区域:它既不太大也不太小,它刚刚好。最后,我们再次使用神经网络语言模型对候选句子进行评分以得到最终输出。我们目前正在研究将这些技术整合进IBM沃森最先进的语音转文本服务中。通过将我们的声学和语言模型展示给越来越多的真实世界数据,我们期望能弥合「实验室环境」和部署的服务之间的表现差距。要了解更多细节,请参考我们发布在arXiv上的论文。

本页网址:https://www.xinzhibang.net/article_detail-8877.html

寻求报道,请 点击这里 微信扫码咨询

关键词

IBM 沃森 语音识别

分享至微信: 微信扫码阅读

相关工具

相关文章