新知榜官方账号
2023-07-08 15:26:24
9月23号,OpenAI发布了一个叫做Whisper的AI模型,向全球开发者开源。Whisper的英文意思就是说悄悄话,顾名思义就是一个语言AI模型。
OpenAI做的事情更偏基础架构一些,也更具有引领者的气质。它最具有代表性的是两个底层技术,每次推出都引发了商业化的浪潮:一个是自然语言生成工具GPT-3,另一个是AI绘画工具DALL-E。抓住这一波风口的初创公司StabilityAI正在冲击10亿美元的估值。
Whisper替代职业就是转录员。根据职业咨询网站Zippia的统计,美国有5.1万名转录员,88.7%的转录员是女性。如果有一种AI工具,同时拥有各行各业的专业知识,还能准确稳定地把采访、博客、对话等语音转录出来,我们就不需要专门培养那么多细分行业领域的转录员了。
音频转文字可没有想象得那么简单。如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚至方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场合,背景会有噪音,也会偶尔有中断。这就要求Whisper在GPT-3理解上下文的基础上,要有更强的抗干扰能力、更接近人类的声音识别能力。
目前来看,OpenAI把这个工具面向所有开发者推出,已经具备商业化条件了。GPT-3在公布API接口后,9个月时间就出现300款应用。这一次的Whisper会不会再现当初的盛况,我们可以拭目以待了。
在人工智能领域,AI音频研究是文字、图片之后下一个备受关注的前沿,商业化前景很大。未来会有越来越多的应用开始使用人工智能,甚至催生新的商业模式,应用也会越来越丰富。我相信,这一波科技的坦克正在逐渐完善,未来就看谁能打出闪电战来。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49