新知榜官方账号
2023-09-30 16:44:39
阿里达摩院研究员付强博士来自阿里巴巴达摩院机器智能方向的语音实验室,拥有20多年的语音信号处理研究和应用开发经验。在「CSDN在线峰会——阿里云核心技术竞争力」上,付强博士深入分享了面向AIoT的智能语音交互技术及实践,以下是演讲精华。
阿里达摩院是面向未来探索未知的研究院,研究领域主要分为5个方面,包括了机器智能、数据计算、机器人、金融科技以及X实验室。其中,语音实验室属于机器智能方向。机器智能技术实验室的研究方向包括了语音、语义、视觉以及运筹优化等,面向的领域包括了政府、交通、农业、传媒、工业、新零售等场景。
达摩院拥有全栈的技术链条以及世界领先的技术能力,基础语音能力免费提供等政策,分层服务的差异化策略和基于不同厂商不同能力的定制输出,阿里巴巴集团提供的庞大生态,软硬件设计、多设备量产经验,迅速接入、全链路定制以及持续迭代和BI等能力。
语音交互主要包括了语音分离/增强、识别、理解、合成、对话等。达摩院有一套称之为NUI的端云一体化平台架构,基于阿里的生态提供内容和服务,支持了淘系、支付宝等应用。NUI通过自然交互的方式为人提供信息、操控设备或者完成其他任务的产品形态。
语音交互技术能力细化到语音相关技术能力,可以分为基本功能和高阶功能。基本能力包括ASR:近场+远场语音识别、TTS:语音合成、WWV:本地远场唤醒、信号处理:抗噪+AEC回声抵消、远场2/4MIC模组方案;高阶技术则属于达摩院自主研发的独有专利技术,包括了方言、快捷命令词、唤醒词定制、基于声纹的个性化推荐、基于盲分离的语音增强、10多个领域的对话理解功能以及即时热词功能等。同时,还对阿里的生态资源进行整合调用,包括了阿里系的本地、生活、出行、旅游、智能、家居、购物、娱乐等方向。
语音交互的技术链条非常长,从硬件侧的电路设计、声学结构到音频链路的排查、连接,再到云上语音识别服务的调优、对话理解领域模型,再到TTS合成,整个链条非常的长。因此在这么多年的语音交互技术的发展过程中,具有全栈技术链条能力的服务商角色越发重要。
针对于终端侧面向各种各样的声学噪声环境,达摩院拥有独有的基于盲源分离的远场信号处理统一框架,能够实现产品方案平台化,与硬件相关的技术和经验被沉淀,提升与客户对接效率,降低对人力和时间成本的要求;在软硬件层面均可做二次开发。同时,达摩院还提供模组级或者芯片级方案的同时,还提供了声学硬件研发、质量控制服务体系。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49