新知榜官方账号
2023-09-30 16:44:39
阿里达摩院研究员付强博士来自阿里巴巴达摩院机器智能方向的语音实验室,拥有20多年的语音信号处理研究和应用开发经验。在「CSDN在线峰会——阿里云核心技术竞争力」上,付强博士深入分享了面向AIoT的智能语音交互技术及实践,以下是演讲精华。
阿里达摩院是面向未来探索未知的研究院,研究领域主要分为5个方面,包括了机器智能、数据计算、机器人、金融科技以及X实验室。其中,语音实验室属于机器智能方向。机器智能技术实验室的研究方向包括了语音、语义、视觉以及运筹优化等,面向的领域包括了政府、交通、农业、传媒、工业、新零售等场景。
达摩院拥有全栈的技术链条以及世界领先的技术能力,基础语音能力免费提供等政策,分层服务的差异化策略和基于不同厂商不同能力的定制输出,阿里巴巴集团提供的庞大生态,软硬件设计、多设备量产经验,迅速接入、全链路定制以及持续迭代和BI等能力。
语音交互主要包括了语音分离/增强、识别、理解、合成、对话等。达摩院有一套称之为NUI的端云一体化平台架构,基于阿里的生态提供内容和服务,支持了淘系、支付宝等应用。NUI通过自然交互的方式为人提供信息、操控设备或者完成其他任务的产品形态。
语音交互技术能力细化到语音相关技术能力,可以分为基本功能和高阶功能。基本能力包括ASR:近场+远场语音识别、TTS:语音合成、WWV:本地远场唤醒、信号处理:抗噪+AEC回声抵消、远场2/4MIC模组方案;高阶技术则属于达摩院自主研发的独有专利技术,包括了方言、快捷命令词、唤醒词定制、基于声纹的个性化推荐、基于盲分离的语音增强、10多个领域的对话理解功能以及即时热词功能等。同时,还对阿里的生态资源进行整合调用,包括了阿里系的本地、生活、出行、旅游、智能、家居、购物、娱乐等方向。
语音交互的技术链条非常长,从硬件侧的电路设计、声学结构到音频链路的排查、连接,再到云上语音识别服务的调优、对话理解领域模型,再到TTS合成,整个链条非常的长。因此在这么多年的语音交互技术的发展过程中,具有全栈技术链条能力的服务商角色越发重要。
针对于终端侧面向各种各样的声学噪声环境,达摩院拥有独有的基于盲源分离的远场信号处理统一框架,能够实现产品方案平台化,与硬件相关的技术和经验被沉淀,提升与客户对接效率,降低对人力和时间成本的要求;在软硬件层面均可做二次开发。同时,达摩院还提供模组级或者芯片级方案的同时,还提供了声学硬件研发、质量控制服务体系。
相关工具
相关文章
相关快讯
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16