OpenAI发布语言AI模型Whisper,未来或替代转录员

新知榜官方账号

2023-07-08 15:26:24

9月23号,OpenAI发布了一个叫做Whisper的AI模型,向全球开发者开源。Whisper的英文意思就是说悄悄话,顾名思义就是一个语言AI模型。

OpenAI做的事情更偏基础架构一些,也更具有引领者的气质。它最具有代表性的是两个底层技术,每次推出都引发了商业化的浪潮:一个是自然语言生成工具GPT-3,另一个是AI绘画工具DALL-E。抓住这一波风口的初创公司StabilityAI正在冲击10亿美元的估值。

Whisper替代职业就是转录员。根据职业咨询网站Zippia的统计,美国有5.1万名转录员,88.7%的转录员是女性。如果有一种AI工具,同时拥有各行各业的专业知识,还能准确稳定地把采访、博客、对话等语音转录出来,我们就不需要专门培养那么多细分行业领域的转录员了。

音频转文字可没有想象得那么简单。如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚至方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场合,背景会有噪音,也会偶尔有中断。这就要求Whisper在GPT-3理解上下文的基础上,要有更强的抗干扰能力、更接近人类的声音识别能力。

目前来看,OpenAI把这个工具面向所有开发者推出,已经具备商业化条件了。GPT-3在公布API接口后,9个月时间就出现300款应用。这一次的Whisper会不会再现当初的盛况,我们可以拭目以待了。

在人工智能领域,AI音频研究是文字、图片之后下一个备受关注的前沿,商业化前景很大。未来会有越来越多的应用开始使用人工智能,甚至催生新的商业模式,应用也会越来越丰富。我相信,这一波科技的坦克正在逐渐完善,未来就看谁能打出闪电战来。

本页网址:https://www.xinzhibang.net/article_detail-7008.html

寻求报道,请 点击这里 微信扫码咨询

关键词

OpenAI Whisper 语言AI模型 转录员 人工智能 AI工具

分享至微信: 微信扫码阅读

相关工具

相关文章