新知榜官方账号
2023-09-19 00:24:51
语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容,使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等。
语音识别的研究工作可以追溯到20世纪50年代。在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956年,在RCA实验室,Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。
70年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。其中苏联的Velichko和Zagoruyko的研究为模式识别应用于语音识别这一领域奠定了基础;日本的迫江和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式语音识别之间进行非线性时间匹配的方法;日本的板仓的研究则提出了如何将线性预测分析技术加以扩展,使之用于语音信号的特征抽取的方法。同时,这个时期还提出了矢量量化和隐马尔可夫模型理论。
80年代,语音识别研究进一步走向深入。这一时期所取得的重大进展有:(1)隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的主流方法。(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。(3)人工神经网络(ANN)在语音识别中的应用研究的兴起。ANN具有较好的区分复杂分类边界的能力,显然它十分有助于模式识别。在这些研究中,大部分采用基于反向传播算法(BP算法)的多层感知网络。
21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。2009年,Hinton将深度神经网络(DNN)应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。
全球语音识别领域的学者主要分布在美国、日本、韩国、欧洲等地,其中中国的人才数量也较多。语音识别领域的学者以男性为主,男女比例约为9:1。语音识别领域学者的h-index分布在中间区域,其中h-index在30-40区间的人数最多,有752人,占比37.3%。
近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。远场语音识别(far-fieldASR),模型结构(ASRnetworkarchitecture),模型训练(modeltrainingforASR),跨语种或者多语种语音识别(cross-lingualandmulti-lingualASR)以及一些端到端语音识别(end-to-endASR)成为研究热点。在语音合成方面,高音质语音生成算法及Voiceconversion是近两年研究者关注的两大热点,VoiceConversion方向的研究重点主要集中在基于GAN的方法上。在语言模型方面(LanguageModel)的研究热点主要包括NLP模型的迁移,低频单词的表示,以及深层Transformer等。在说话人识别方面,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。说话人技术目前也逐渐暴露出与人脸识别同样的易受攻击的问题。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16