新知榜官方账号
2023-09-30 16:56:32
2018年已经接近尾声,寒冬之下,中国的AI初创公司仍在扩张边界。12月11日,中国计算机视觉领域“四小龙”之一的依图正式进军语音识别领域,宣布与微软合作推出依图开放平台,开放平台将提供依图开发的语音识别算法API,以及大量的数据集。另外,依图也宣布和华为合作发布智能语音联合解决方案,该方案基于依图语音开放平台及华为全栈全场景昇腾(Ascend)系列芯片和面向数据中心侧的Atlas300AI加速卡,结合双方的技术研发能力与生态服务能力深度,形成软硬件一体化的联合解决方案。
伴随着两款产品的发布,依图还在现场展示了其中文语音识别算法的一系列进展:在业内近期公开的AISHELL-2的三个测试子集,以及来自第三方的近场口音测试集、近场安静聊天测试集、语音节目测试集、电话测试集、远场测试集中,依图表现突出,且字错率几乎全部在15%以下,同样表现突出的还有科大讯飞。其中,在AISHELL2-2018A-EVAL数据集中,依图的识别准确率高达96.29%,字错率(CER)仅为3.71%,同样领先一些业内领军者。AISHELL-2是AISHELLFoundation和希尔贝壳宣布的开源数据库,数据规模达1000小时,是目前全球最大的中文开源数据库。它由1991名来自中国不同口音区域的发言人参与录制,经过专业语音校对人员转写标注,通过了严格质量检验,数据库文本正确率在96%以上,录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。
特别的是,针对不同的场景,依图采用了同一种语音识别算法,即单个算法模型表现了多场景适用性。这种方法与目前市面上针对限定场景开发不同识别算法的技术路线有很大不同。依图科技首席创新官吕昊总结了人脸识别领域的从实验室走向落地的发展脉络,他认为,大量的测试和努力能够打破非常多限制的条件,因此技术落地越来越多,“因为大家变得透明,且竞争比较多之后,整个行业也在往前走。我们也希望语音识别这个行业通过这样一些活动,通过我们的努力,通过一些严谨的测试把这些打通整个行业。”
除了这样的公开测试以外,依图还表示,数据集、算法api都是能够推动语音识别行业发展的重要推动因素。作为行业的一员,依图呼吁行业公开更多样的数据集,公开可重复的评测结果。依图在这样的测试中也花了很多力气对接各大厂商,因为其中不少是不免费公开的api,当然,这些测试更多针对的是现有的产品,各个厂商的能力其实可能无法完全展现。鉴于目前语音识别在用户体验上还远未到达理想的状态,技术上的限制仍未清除,依图希望通过几款产品的发布促进整个行业的竞争合作。
在谈到今年多家主攻语音识别技术的AI公司纷纷推出专用语音AI芯片的浪潮、大有语音识别下阶段竞争转向硬件大比拼之势时,依图则表示,把算法定制化到硬件中,很多时候是商业驱动的,依图不排除未来自研语音AI芯片的可能。但与之并行的是,依图也会继续提升算法的表现。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49