新知榜官方账号
2023-09-29 22:30:46
IBM最近宣布,其语音识别系统实现了5.5%的单词错误率的行业记录,更接近于人类的平等。这对企业意味着什么。IBM最近宣布,它在对话语音识别方面达到了新的行业记录,这可能对人工智能(AI)的未来产生重大影响。IBM团队的系统实现了5.5%的单词错误率,低于去年的6.9%。该基准是在一项困难的语音识别任务上进行衡量的,该机器使用机器解密记录下来的人们之间的对话,讨论诸如买车之类的日常话题。根据IBM首席研究科学家GeorgeSaon的博客文章,该录音被称为SWITCHBOARD,并且已经用于测试语音识别系统超过20年。IBM使用深度学习技术达到5.5%的记录。根据博客文章,研究人员将长期短期记忆(LSTM)和WaveNet语言模型与三个声学模型结合在一起。“在所使用的声学模型中,前两个是六层双向LSTM。其中一个具有多个功能输入,而另一个则通过说话人-对抗式多任务学习进行训练,”Saon写道。“关于最后一个模型的独特之处在于,它不仅可以从积极的例子中学习,而且还可以从消极的例子中受益-因此,它可以变得更加智能,并且在重复类似语音模式时表现更好。”
此前的记录是由微软的人工智能与研究小组于2016年10月创下的,当时研究人员开发了一种系统,声称自己的识别语音与专业的人类转录专家一样准确,字误率为5.9%。但是,萨恩(Soon)在他的文章中指出,人均收入实际上是5.1%的单词错误率,比任何一家公司都还低。萨恩写道:“我们还没有弹出香槟。”“虽然我们突破5.5%的水平是一个很大的突破,但人类平等发现这一5.1%的发现向我们证明了我们还有一段路要走,我们才能宣称技术与人类相提并论。”
蒙特利尔大学蒙特利尔学习算法研究所(MILA)实验室负责人YoshuaBengio说,在诸如语音或对象识别之类的AI任务中达到人类水平的性能仍然是一项科学挑战。他补充说,标准基准并不总是能揭示真实数据的变化和复杂性。Bengio说:“例如,不同的数据集或多或少对任务的不同方面敏感,结果在很大程度上取决于如何评估人类的表现,例如在语音识别的情况下使用熟练的专业笔录者。”
Saon还指出,找到一种用于人类均等的标准衡量标准也是一项复杂的任务。尽管许多人使用SWITCHBOARD,但另一个名为CallHome的语料库提供了一组语言数据,这些数据是由家庭成员之间的口头交谈创建的,涉及的话题没有预先安排。对于机器而言,这些对话比来自SWITCHBOARD的对话更难转录。IBM在此措施上的错误率达到了10.3%,但确定人均收入为6.8%。哥伦比亚大学计算机科学系教授兼主席JuliaHirschberg表示:“人们的语音识别能力以及人类的识别能力仍是一项持续的挑战,因为人类语音(尤其是在自发交谈中)非常复杂。”
Gartner物联网研究副总裁兼首席分析师MarkHung表示,IBM的突破可能会对企业中AI和物联网(IoT)的未来产生重大影响。Hung表示:“随着Alexa和GoogleAssistant等对话式AI平台的激增,错误率的持续下降将必不可少,以推动语音作为消费者和企业应用程序UI的更大采用。”IBM最近对其Watson部门进行了重大投资,作为IBM在2014年承诺的30亿美元IoT投资的一部分,Watson物联网全球总部新近在德国慕尼黑开业,耗资2亿美元。其Watson语音转文字服务,使处理器有可能在对话中区分各个说话者。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49