新知榜官方账号
2023-09-30 16:56:32
2018年已经接近尾声,寒冬之下,中国的AI初创公司仍在扩张边界。12月11日,中国计算机视觉领域“四小龙”之一的依图正式进军语音识别领域,宣布与微软合作推出依图开放平台,开放平台将提供依图开发的语音识别算法API,以及大量的数据集。另外,依图也宣布和华为合作发布智能语音联合解决方案,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas300AI加速卡,结合双方的技术研发能力与生态服务能力深度,形成软硬件一体化的联合解决方案。
伴随着两款产品的发布,依图还在现场展示了其中文语音识别算法的一系列进展:在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图表现突出,且字错率几乎全部在15%以下,同样表现突出的还有科大讯飞。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,同样领先一些业内领军者。AISHELL-2是AISHELLFoundation和希尔贝壳宣布的开源数据库,数据规模达1000小时,是目前全球最大的中文开源数据库。它由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
特别的是,针对不同的场景,依图采用了同一种语音识别算法,即单个算法模型表现了多场景适用性。这种方法与目前市面上针对限定场景开发不同识别算法的技术路线有很大不同。依图科技首席创新官吕昊总结了人脸识别领域的从实验室走向落地的发展脉络,他认为,大量的测试和努力能够打破非常多限制的条件,因此技术落地越来越多,“因为大家变得透明,且竞争比较多之后,整个行业也在往前走。我们也希望语音识别这个行业通过这样一些活动,通过我们的努力,通过一些严谨的测试把这些打通整个行业。”
除了这样的公开测试以外,依图还表示,数据集、算法api都是能够推动语音识别行业发展的重要推动因素。作为行业的一员,依图呼吁行业公开更多样的数据集,公开可重复的评测结果。依图在这样的测试中也花了很多力气对接各大厂商,因为其中不少是不免费公开的api,当然,这些测试更多针对的是现有的产品,各个厂商的能力其实可能无法完全展现。鉴于目前语音识别在用户体验上还远未到达理想的状态,技术上的限制仍未清除,依图希望通过几款产品的发布促进整个行业的竞争合作。
在谈到今年多家主攻语音识别技术的AI公司纷纷推出专用语音AI芯片的浪潮、大有语音识别下阶段竞争转向硬件大比拼之势时,依图则表示,把算法定制化到硬件中,很多时候是商业驱动的,依图不排除未来自研语音AI芯片的可能。但与之并行的是,依图也会继续提升算法的表现。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16