阿里达摩院研究员付强博士分享面向AIoT的智能语音交互技术及实践

新知榜官方账号

2023-09-30 16:44:39

阿里达摩院研究员付强博士分享面向AIoT的智能语音交互技术及实践

阿里达摩院研究员付强博士来自阿里巴巴达摩院机器智能方向的语音实验室,拥有20多年的语音信号处理研究和应用开发经验。在「CSDN在线峰会——阿里云核心技术竞争力」上,付强博士深入分享了面向AIoT的智能语音交互技术及实践,以下是演讲精华。

阿里达摩院的研究领域

阿里达摩院是面向未来探索未知的研究院,研究领域主要分为5个方面,包括了机器智能、数据计算、机器人、金融科技以及X实验室。其中,语音实验室属于机器智能方向。机器智能技术实验室的研究方向包括了语音、语义、视觉以及运筹优化等,面向的领域包括了政府、交通、农业、传媒、工业、新零售等场景。

达摩院语音方案的技术优势

达摩院拥有全栈的技术链条以及世界领先的技术能力,基础语音能力免费提供等政策,分层服务的差异化策略和基于不同厂商不同能力的定制输出,阿里巴巴集团提供的庞大生态,软硬件设计、多设备量产经验,迅速接入、全链路定制以及持续迭代和BI等能力。

NUI端云一体平台架构

语音交互主要包括了语音分离/增强、识别、理解、合成、对话等。达摩院有一套称之为NUI的端云一体化平台架构,基于阿里的生态提供内容和服务,支持了淘系、支付宝等应用。NUI通过自然交互的方式为人提供信息、操控设备或者完成其他任务的产品形态。

面向智能硬件的端云一体语音技术能力

语音交互技术能力细化到语音相关技术能力,可以分为基本功能和高阶功能。基本能力包括ASR:近场+远场语音识别、TTS:语音合成、WWV:本地远场唤醒、信号处理:抗噪+AEC回声抵消、远场2/4MIC模组方案;高阶技术则属于达摩院自主研发的独有专利技术,包括了方言、快捷命令词、唤醒词定制、基于声纹的个性化推荐、基于盲分离的语音增强、10多个领域的对话理解功能以及即时热词功能等。同时,还对阿里的生态资源进行整合调用,包括了阿里系的本地、生活、出行、旅游、智能、家居、购物、娱乐等方向。

智能设备类语音交互技术链路长

语音交互的技术链条非常长,从硬件侧的电路设计、声学结构到音频链路的排查、连接,再到云上语音识别服务的调优、对话理解领域模型,再到TTS合成,整个链条非常的长。因此在这么多年的语音交互技术的发展过程中,具有全栈技术链条能力的服务商角色越发重要。

阿里达摩院在智能设备类语音交互技术链条中的技术积累

针对于终端侧面向各种各样的声学噪声环境,达摩院拥有独有的基于盲源分离的远场信号处理统一框架,能够实现产品方案平台化,与硬件相关的技术和经验被沉淀,提升与客户对接效率,降低对人力和时间成本的要求;在软硬件层面均可做二次开发。同时,达摩院还提供模组级或者芯片级方案的同时,还提供了声学硬件研发、质量控制服务体系。

本页网址:https://www.xinzhibang.net/article_detail-14525.html

寻求报道,请 点击这里 微信扫码咨询

关键词

阿里达摩院 付强博士 智能语音交互 AIoT 语音实验室

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯