OpenAI宣布Whisper开源,可实现多种语言的强大转录并翻译成英语

新知榜官方账号

2023-10-17 22:58:24

OpenAI宣布Whisper开源,可实现多种语言的强大转录并翻译成英语

尽管包括Google、亚马逊和Meta在内的科技巨头,都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域,语音识别仍是一个颇具挑战性的话题。

好消息是,今日OpenAI隆重地宣布了Whisper的开源——可知作为一套自动语音识别系统,官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。(来自:OpenAIBlog)

OpenAI表示,Whisper的不同之处,在于其接受了从网络收集的68万小时的多语言和“多任务”训练数据,从而提升了该方案对独特口音、背景噪声和技术术语的识别能力。官方GitHub存储库上的概述称:Whisper模型的主要目标用户,是研究当前模型稳健性、泛化、能力、偏差和约束的AI研究人员。

与此同时,它也很适合作为面向开发者的自动语音识别解决方案尤其是英语语音识别。感兴趣的朋友,可以从托管平台上下载Whisper系统的多个版本,其模型在大约10种语言上展现出了强大的ASR结果。此外假如在某些任务上加以微调的话,它们还有望在语音活动检测、讲述者分类等应用场景下表现出额外的能力。

遗憾的是,Whisper尚未在相关领域得到强有力的评估、且模型也有其局限性——有其在文本预测领域。由于该系统接受了大量“嘈杂”的数据训练,OpenAI决定提前给大家打一剂预防针,警告称Whisper可能在转录中包含实际上未讲述的单词。原因可能是Whisper既试图预测音频中的下一个单词、又试图转录音频本身。

此外Whisper在不同语言场景下的表现也不大一致,尤其涉及在训练数据中没有很好被代表的语言的讲述者时,其错误率也会更高。不过后者在语音识别领域早已不是什么新鲜事,即使业内首屈一指的系统,也一直受到此类偏差的困扰。参考斯坦福大学在2020年分享的一项研究结果——相较于黑人,来自亚马逊、苹果、Google、IBM和微软的系统,针对白人用户的错误率要低得多(大约35%)。

Whisper有约1/3的音频数据集为非英语即便如此,OpenAI还是认为Whisper的转录功能,可被用于改进现有的可访问性工具。其在GitHub上写道:尽管Whisper模型不适用于开箱即用的实时转录,但其速度和大小表明,其他人可在此基础上构建近乎实时的语音识别和翻译应用程序。建立在Whisper模型之上的有益应用程序,其价值切实地表明了这些模型的不同性能,有望发挥出真正的经济影响力。我们希望大家能够将该技术积极应用于有益目的,使自动语音识别技术更易获得改进、让更多参与者能够打造出更负责任的项目。在速度和准确性的双重优势下,Whisper将允许对大量通信提供可负担得起的自动转录和翻译体验。

本页网址:https://www.xinzhibang.net/article_detail-17067.html

寻求报道,请 点击这里 微信扫码咨询

关键词

OpenAI Whisper 语音识别 自动转录 翻译 多语言

分享至微信: 微信扫码阅读

相关工具

相关文章