新知榜官方账号
2023-09-29 22:30:46
IBM最近宣布,其语音识别系统实现了5.5%的单词错误率的行业记录,更接近于人类的平等。这对企业意味着什么。IBM最近宣布,它在对话语音识别方面达到了新的行业记录,这可能对人工智能(AI)的未来产生重大影响。IBM团队的系统实现了5.5%的单词错误率,低于去年的6.9%。该基准是在一项困难的语音识别任务上进行衡量的,该机器使用机器解密记录下来的人们之间的对话,讨论诸如买车之类的日常话题。根据IBM首席研究科学家GeorgeSaon的博客文章,该录音被称为SWITCHBOARD,并且已经用于测试语音识别系统超过20年。IBM使用深度学习技术达到5.5%的记录。根据博客文章,研究人员将长期短期记忆(LSTM)和WaveNet语言模型与三个声学模型结合在一起。“在所使用的声学模型中,前两个是六层双向LSTM。其中一个具有多个功能输入,而另一个则通过说话人-对抗式多任务学习进行训练,”Saon写道。“关于最后一个模型的独特之处在于,它不仅可以从积极的例子中学习,而且还可以从消极的例子中受益-因此,它可以变得更加智能,并且在重复类似语音模式时表现更好。”
此前的记录是由微软的人工智能与研究小组于2016年10月创下的,当时研究人员开发了一种系统,声称自己的识别语音与专业的人类转录专家一样准确,字误率为5.9%。但是,萨恩(Soon)在他的文章中指出,人均收入实际上是5.1%的单词错误率,比任何一家公司都还低。萨恩写道:“我们还没有弹出香槟。”“虽然我们突破5.5%的水平是一个很大的突破,但人类平等发现这一5.1%的发现向我们证明了我们还有一段路要走,我们才能宣称技术与人类相提并论。”
蒙特利尔大学蒙特利尔学习算法研究所(MILA)实验室负责人YoshuaBengio说,在诸如语音或对象识别之类的AI任务中达到人类水平的性能仍然是一项科学挑战。他补充说,标准基准并不总是能揭示真实数据的变化和复杂性。Bengio说:“例如,不同的数据集或多或少对任务的不同方面敏感,结果在很大程度上取决于如何评估人类的表现,例如在语音识别的情况下使用熟练的专业笔录者。”
Saon还指出,找到一种用于人类均等的标准衡量标准也是一项复杂的任务。尽管许多人使用SWITCHBOARD,但另一个名为CallHome的语料库提供了一组语言数据,这些数据是由家庭成员之间的口头交谈创建的,涉及的话题没有预先安排。对于机器而言,这些对话比来自SWITCHBOARD的对话更难转录。IBM在此措施上的错误率达到了10.3%,但确定人均收入为6.8%。哥伦比亚大学计算机科学系教授兼主席JuliaHirschberg表示:“人们的语音识别能力以及人类的识别能力仍是一项持续的挑战,因为人类语音(尤其是在自发交谈中)非常复杂。”
Gartner物联网研究副总裁兼首席分析师MarkHung表示,IBM的突破可能会对企业中AI和物联网(IoT)的未来产生重大影响。Hung表示:“随着Alexa和GoogleAssistant等对话式AI平台的激增,错误率的持续下降将必不可少,以推动语音作为消费者和企业应用程序UI的更大采用。”IBM最近对其Watson部门进行了重大投资,作为IBM在2014年承诺的30亿美元IoT投资的一部分,Watson物联网全球总部新近在德国慕尼黑开业,耗资2亿美元。其Watson语音转文字服务,使处理器有可能在对话中区分各个说话者。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16