IBM语音识别系统实现5.5％单词错误率行业记录，更接近于人类的平等

新知榜官方账号

2023-09-29 22:30:46

IBM最近宣布，其语音识别系统实现了5.5％的单词错误率的行业记录，更接近于人类的平等。这对企业意味着什么。IBM最近宣布，它在对话语音识别方面达到了新的行业记录，这可能对人工智能（AI）的未来产生重大影响。IBM团队的系统实现了5.5％的单词错误率，低于去年的6.9％。该基准是在一项困难的语音识别任务上进行衡量的，该机器使用机器解密记录下来的人们之间的对话，讨论诸如买车之类的日常话题。根据IBM首席研究科学家GeorgeSaon的博客文章，该录音被称为SWITCHBOARD，并且已经用于测试语音识别系统超过20年。IBM使用深度学习技术达到5.5％的记录。根据博客文章，研究人员将长期短期记忆（LSTM）和WaveNet语言模型与三个声学模型结合在一起。“在所使用的声学模型中，前两个是六层双向LSTM。其中一个具有多个功能输入，而另一个则通过说话人-对抗式多任务学习进行训练，”Saon写道。“关于最后一个模型的独特之处在于，它不仅可以从积极的例子中学习，而且还可以从消极的例子中受益-因此，它可以变得更加智能，并且在重复类似语音模式时表现更好。”

此前的记录是由微软的人工智能与研究小组于2016年10月创下的，当时研究人员开发了一种系统，声称自己的识别语音与专业的人类转录专家一样准确，字误率为5.9％。但是，萨恩（Soon）在他的文章中指出，人均收入实际上是5.1％的单词错误率，比任何一家公司都还低。萨恩写道：“我们还没有弹出香槟。”“虽然我们突破5.5％的水平是一个很大的突破，但人类平等发现这一5.1％的发现向我们证明了我们还有一段路要走，我们才能宣称技术与人类相提并论。”

蒙特利尔大学蒙特利尔学习算法研究所（MILA）实验室负责人YoshuaBengio说，在诸如语音或对象识别之类的AI任务中达到人类水平的性能仍然是一项科学挑战。他补充说，标准基准并不总是能揭示真实数据的变化和复杂性。Bengio说：“例如，不同的数据集或多或少对任务的不同方面敏感，结果在很大程度上取决于如何评估人类的表现，例如在语音识别的情况下使用熟练的专业笔录者。”

Saon还指出，找到一种用于人类均等的标准衡量标准也是一项复杂的任务。尽管许多人使用SWITCHBOARD，但另一个名为CallHome的语料库提供了一组语言数据，这些数据是由家庭成员之间的口头交谈创建的，涉及的话题没有预先安排。对于机器而言，这些对话比来自SWITCHBOARD的对话更难转录。IBM在此措施上的错误率达到了10.3％，但确定人均收入为6.8％。哥伦比亚大学计算机科学系教授兼主席JuliaHirschberg表示：“人们的语音识别能力以及人类的识别能力仍是一项持续的挑战，因为人类语音（尤其是在自发交谈中）非常复杂。”

Gartner物联网研究副总裁兼首席分析师MarkHung表示，IBM的突破可能会对企业中AI和物联网（IoT）的未来产生重大影响。Hung表示：“随着Alexa和GoogleAssistant等对话式AI平台的激增，错误率的持续下降将必不可少，以推动语音作为消费者和企业应用程序UI的更大采用。”IBM最近对其Watson部门进行了重大投资，作为IBM在2014年承诺的30亿美元IoT投资的一部分，Watson物联网全球总部新近在德国慕尼黑开业，耗资2亿美元。其Watson语音转文字服务，使处理器有可能在对话中区分各个说话者。

本页网址：https://www.xinzhibang.net/article_detail-14425.html

寻求报道，请

关键词

分享至微信：

相关工具

Typecast

在线AI文字转语音生成工具

Voicemaker

AI文本到语音生成工具

BGM猫

灵动音科技推出的AI智能生成BGM音乐

IBM Watson文字转语音

IBM Watson文字转语音

讯飞智作

科大讯飞推出的AI转语音和配音工具

LOVO AI

AI人声和文本转语音生成工具

中国式浪漫

中国式浪漫中国式的浪漫有着独特的韵味，充满了婉约而华贵的情感。从古至今，我们常常可以看到一些文艺作品中描绘的恋人们穿越古代的长廊，相互倾诉着深情而含蓄的爱意。这种浪漫，不单单是一种场景的表达，更多的是一种文化的传承。东方之美，婉约而华贵的爱在现代社会中，这种东方之美依然在中国式的爱情中得以体现。例如

分类标签中国式浪漫东方之美传统与现代

12-07 22:27

家庭影院技术杂志推出“AVTOP100！”优秀影音器材推荐榜

家庭影院技术杂志推出“AVTOP100！”优秀影音器材推荐榜自2004年起，《家庭影院技术》杂志就开始为影音爱好者与行业人士推出“AVTOP100！”优秀影音器材推荐榜，旨在评选出当年影音集成领域最具影响力的100款代表性影音产品，类型涵盖私人影院、客厅影院、Hi-Fi音响、个人数码娱乐、智能家居等

分类标签 AVTOP100影音器材家庭影院

11-25 16:24

SoundGrid工作室系统介绍

SoundGrid工作室系统介绍SoundGrid工作室系统是一个开放平台，它可以无缝整合DAW（数字音频工作站）与SoundGrid兼容的I/O接口。通过SoundGridStudioSystem，用户可以运行几乎无限制的插件量；通过全面的效果和零延迟跟踪和排演；通过一个集中的集线器连接所有东西和

分类标签 SoundGrid数字音频工作站I/O接口

11-25 16:22

AI与歌手共同创作新歌，未来音乐创作将会怎样？

AI与歌手共同创作新歌，未来音乐创作将会怎样？美国歌手TarynSouthern和AI共同创作的新歌《BreakFree》发布，这是AI音乐创作公司AmperMusic的软件创作的结果。通过调整情绪、风格、速度等参数，AI即可生成一首曲子，并选择最合适的和弦和器演奏出来。在《BreakFree》中，

分类标签 AI音乐创作TarynSouthernIAMAI

11-24 22:13

AI音乐创作：让词曲创作更加简单

AI音乐创作：让词曲创作更加简单人工智能足以改变世界，甚至颠覆世界，词曲创作原本是一项非常专业的领域，现在也能被AI快速搞定。AI音乐创作是一个神奇的工具，通过选择风格、输入描述词，就能一键免费生成优美动听的英文歌曲，让词曲创作变得更加简单。这个人工智能音乐创作AI可以看懂中文和英文的内容描述，生成

分类标签人工智能音乐创作歌曲生成词曲创作

11-24 22:12

米津玄师演唱《Lemon》MV播放量突破5亿

米津玄师演唱《Lemon》MV播放量突破5亿本月17日，由创作歌手米津玄师（28岁）演唱大热歌曲《Lemon》的MV在YouTube上的播放量超过了5亿。该MV于2018年2月27日公开，仅仅经过659日就达成了惊人的成绩。该曲于去年3月发售，蝉联了2018，2019两年Billboard-Japa

分类标签米津玄师LemonMV

11-24 22:11

Deepmind推出新型音频模型Lyria，能生成带有乐器和人声的高品质音乐

Deepmind近日推出了一款名为Lyria的新型音频模型，该模型能够生成带有乐器和人声的高品质音乐。此外，Deepmind还与YouTube合作，通过整合Lyria模型开发了音乐创作工具DreamTrack，为视频创作者提供了更高效的创作工具。音乐生成是一个具有挑战性的任务，因为音乐本身包含极高的

分类标签 DeepmindLyria音频模型

11-24 22:10

全球首款AI生成音乐的神器——炫酷音乐大师

全球首款AI生成音乐的神器——炫酷音乐大师，是由一群顶尖领域的专家们熬夜加点弄出来的。这款音乐软件不仅获得了众多重量级机构的认可，还有着极高的实用性和创新性。炫酷音乐大师的独特之处在于它能为用户自动生成各式各样的音乐，包括浪漫的爱情诗篇、热烈如火的摇滚狂欢等，甚至可以为用户自动创作曲子。这一切都得益

分类标签炫酷音乐大师AI生成音乐音乐软件

11-24 22:09

苹果收购人工智能音乐初创公司AIMusic

苹果收购人工智能音乐初创公司AIMusic据报道，苹果收购了一家名为AIMusic的初创公司，该公司能够利用人工智能生成定制音乐。AIMusic成立于2016年，总部位于伦敦，大约有20名员工。AIMusic的技术可以利用AI创造出免版税的原声音乐。通常，这些原声音乐是动态生产的，可以根据用户的实时

分类标签苹果收购人工智能音乐AIMusic

11-24 22:08

一加在海外推出AI音乐工作室，用户可创作和分享AI生成的音乐并参加比赛

一加在海外推出AI音乐工作室，用户可创作和分享AI生成的音乐并参加比赛一加在海外官网上线了AI音乐工作室（AIMusicStudio），用户可以通过该平台创作和分享AI生成的音乐。用户只需选择自己喜欢的流派、情绪和主题，为AI提供数据，等待几分钟，就可以得到自己的歌词和音乐视频。据悉，一加围绕AI音

分类标签一加AI音乐工作室音乐创作

11-24 22:07

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway