语音识别技术的发展历程及未来趋势

新知榜官方账号

2023-09-19 00:29:06

引言

在人工智能飞速发展的今天,语音识别技术成为很多设备的标配,过去五年间,语音识别的需求逐渐爆发。然而,目前语音识别相关的应用及使用场景仍具有局限性,因此,国内外众多企业纷纷开始探索语音识别的新算法新策略。本文中,百分点感知智能实验室从技术发展的角度出发,深入分析了语音识别技术不同发展阶段的模型构建和优化,以及未来发展趋势。

语音识别技术发展历程

语音识别技术简单的说,就是将计算机接收到的音频信号转换为相应的文字。语音识别技术从上个世纪50年代出现,发展到现在已有半个多世纪的历史。经过多轮技术迭代,语音识别已经从最早的孤立数字识别,发展到今天复杂环境下的连续语音识别,并且已经应用到各种电子产品中,为人们的日常生活带来许多便利。

从技术发展的历史来讲,语音识别技术主要经历了三个时代,即基于模版匹配的技术框架、基于统计机器学习的技术框架和最新的端到端技术框架。近年来,得益于深度学习技术突破性的进展,以及移动互联网的普及带来的海量数据的积累,语音识别已经达到了非常高的准确率,在某些数据集上甚至超过了人类的识别能力。随着识别准确率的提升,研究者们的关注点也从语音识别的准确率,渐渐转移到了一些更加复杂的问题上,比如多语种混合语音识别。

该问题涉及到多语种混合建模、迁移学习和小样本学习等技术。对某些小语种来说,由于无法获得足够多的训练样本,因此,如何从小样本数据中构建可靠的语音识别系统成为一个待解决的难题。针对该问题,百分点科技提出了一系列的算法,针对小语种语音识别系统构建中出现的训练样本获得困难、文本书写规则复杂、发音单元不统一等问题作了相应的优化。基于这些技术,百分点科技已经成功研发出数十种小语种语音识别系统,在支持语种的数量,以及识别准确率上都处于国内领先地位。

接下来,本文将重点介绍语音识别技术不同发展阶段经历的重要技术框架,包括传统的HMM-GMM和HMM-DNN,以及最新的端到端方法等。

GMM-HMM/DNN-HMM

GMM-HMM基本使用HTK或者Kaldi进行开发。在2010年之前,整个语音识别领域都是在GMM-HMM里做一些文章。我们的语音通过特征提取后,利用混合高斯模(GMM)来对特征进行建模。这里的建模单元是cd-states,cd-states的具体生成方法如图二所示。建模单元在GMM-HMM时代,或者DNN-HMM时代,基本没有太多创新,大多使用tiedtriphone,即senone。GMM-HMM的整体过程如图三所示。图三展示了基本的训练前准备,此外就是纯训练的过程。纯训练解决的是如何将图三右边的特征向量分配到左边状态序列里的问题。

在2010年前后,由于深度学习的发展,整个语音识别的框架开始转变成DNN-HMM。其实就是把原来用GMM对特征进行建模,转换成用神经网络去建模。由于神经网络从2010年至今不断发展,各种不同的结构不断出现,也带来了不同的效果。DNN-HMM的基本结构如图四所示。DNN模型,可以是纯DNN模型、CNN模型或LSTM模型等。整个模型层只是在GMM基础上做替换。在这个时代,模型结构整体上都是各种调优,最经典的模型结果就是谷歌的CLDNN模型和LSTM结构。

端到端语音识别

端到端语音识别,是近年来业界研究的热点,主流的端到端方法包括CTC,RNN-T和LAS。CTC框架虽然在学习传统的HMM,但是抛弃了HMM中一些复杂的东西。CTC从原理上就解释的比HMM好,因为强制对齐的问题是会存在不确定因素或者状态边界有时是分不清楚的,但HMM必须要求分一个出来。而CTC的好处就在于,它引入了一个blank概念,在边界不确定的时候就用blank代替,用尖峰来表示确定性。所以边界不准的地方我们就可以用blank来替代,而我们觉得确信的东西来用一个尖峰来表示,这样尖峰经过迭代就越来越强。CTC在业界的使用有2个办法,有人把它当作声学模型使用,有人把它当作语音识别的全部。但目前工业界系统都只把CTC当作声学模型来使用,其效果更好。纯端到端的使用CTC做语音识别,效果还是不够好。LAS的全称叫做listen,attendedandspell,此模型拉开了纯端到端语音识别架构的序幕,一个LAS模型的整体结构如图九所示。RNN-T相比CTC,继承了blank机制,但对原来的路径做了约束。相比CTC来讲,RNN-T的约束更合理,所以整体性能也比CTC好。但是RNN-T较难训练,一般需要把CTC模型当作预训练模型的基础再进行训练。

Transformer/Conformer

Transformer和conformer是目前性能最好的模型。transformer模型是从NLP借鉴到ASR领域,从ESPnet的论文里证明,transformer模型在各个数据集上效果比RNN或者kaldi的模型都好。此外,conformer模型比LSTM或者transformer模型好。

未来趋势

端到端模型用很小的模型结构大小就达到原来几十G模型的效果。但端到端模型真正与业务相结合时,遇到的问题还是很明显,比如:不同场景下模型需要如何调整?遇到一些新词的时候LM如何调整?针对此类问题,学术界和工业界都在寻找新的解决方案。

本页网址:https://www.xinzhibang.net/article_detail-12296.html

寻求报道,请 点击这里 微信扫码咨询

关键词

语音识别 技术发展 模型构建

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯