阿里达摩院研究员付强博士分享面向AIoT的智能语音交互技术及实践

新知榜官方账号

2023-09-30 16:44:39

阿里达摩院研究员付强博士分享面向AIoT的智能语音交互技术及实践

阿里达摩院研究员付强博士来自阿里巴巴达摩院机器智能方向的语音实验室，拥有20多年的语音信号处理研究和应用开发经验。在「CSDN在线峰会——阿里云核心技术竞争力」上，付强博士深入分享了面向AIoT的智能语音交互技术及实践，以下是演讲精华。

阿里达摩院的研究领域

阿里达摩院是面向未来探索未知的研究院，研究领域主要分为5个方面，包括了机器智能、数据计算、机器人、金融科技以及X实验室。其中，语音实验室属于机器智能方向。机器智能技术实验室的研究方向包括了语音、语义、视觉以及运筹优化等，面向的领域包括了政府、交通、农业、传媒、工业、新零售等场景。

达摩院语音方案的技术优势

达摩院拥有全栈的技术链条以及世界领先的技术能力，基础语音能力免费提供等政策，分层服务的差异化策略和基于不同厂商不同能力的定制输出，阿里巴巴集团提供的庞大生态，软硬件设计、多设备量产经验，迅速接入、全链路定制以及持续迭代和BI等能力。

NUI端云一体平台架构

语音交互主要包括了语音分离/增强、识别、理解、合成、对话等。达摩院有一套称之为NUI的端云一体化平台架构，基于阿里的生态提供内容和服务，支持了淘系、支付宝等应用。NUI通过自然交互的方式为人提供信息、操控设备或者完成其他任务的产品形态。

面向智能硬件的端云一体语音技术能力

语音交互技术能力细化到语音相关技术能力，可以分为基本功能和高阶功能。基本能力包括ASR：近场+远场语音识别、TTS：语音合成、WWV：本地远场唤醒、信号处理：抗噪+AEC回声抵消、远场2/4MIC模组方案；高阶技术则属于达摩院自主研发的独有专利技术，包括了方言、快捷命令词、唤醒词定制、基于声纹的个性化推荐、基于盲分离的语音增强、10多个领域的对话理解功能以及即时热词功能等。同时，还对阿里的生态资源进行整合调用，包括了阿里系的本地、生活、出行、旅游、智能、家居、购物、娱乐等方向。

智能设备类语音交互技术链路长

语音交互的技术链条非常长，从硬件侧的电路设计、声学结构到音频链路的排查、连接，再到云上语音识别服务的调优、对话理解领域模型，再到TTS合成，整个链条非常的长。因此在这么多年的语音交互技术的发展过程中，具有全栈技术链条能力的服务商角色越发重要。

阿里达摩院在智能设备类语音交互技术链条中的技术积累

针对于终端侧面向各种各样的声学噪声环境，达摩院拥有独有的基于盲源分离的远场信号处理统一框架，能够实现产品方案平台化，与硬件相关的技术和经验被沉淀，提升与客户对接效率，降低对人力和时间成本的要求；在软硬件层面均可做二次开发。同时，达摩院还提供模组级或者芯片级方案的同时，还提供了声学硬件研发、质量控制服务体系。

本页网址：https://www.xinzhibang.net/article_detail-14525.html

寻求报道，请

关键词

阿里达摩院付强博士智能语音交互 AIoT 语音实验室

分享至微信：

相关工具

ACE Studio

AI歌声合成工具，输入歌词与旋律即可生成宛如真人的歌声

Beatoven.ai

免版税AI音乐创建平台

Boomy

AI音乐生成工具

魔音工坊

短视频/有声书AI配音平台，由出门问问推出

Notta

AI在线将语音转换成文字

听悟

阿里推出的AI会议转录工具，万语千言，心领神悟

Achronix如何降低ASR解决方案的成本

概述本篇白皮书详细介绍了自动语音识别（ASR）的应用场景，以及Achronix如何在实现ASR解决方案的同时将相关成本降低高达90%。交互式人工智能（CAI）简介什么是交互式人工智能（AI）？交互式人工智能（CAI）使用机器学习（ML）的子集深度学习（DL），通过机器实现语音识别、自然语言处理和文本

分类标签自动语音识别交互式人工智能CAINLPASRFPGA

12-07 22:33

如何做到每天进步

如何做到每天进步如果你现在没有那么厉害，不要紧，只要你努力，只要你尽力而为。首先，要明确跟自己比较的重要性。竞争是无处不在的，但是我们更应该关注的是自己的个人成长和发展。每天努力比上次做得更好，后天也是，天天比昨天好。我们要竭尽所能，不断进步，才能提高个人竞争力。其次，要制定目标和计划。明确自己的目

分类标签自我超越努力进步个人竞争力

11-30 16:12

8款AI智能软件，提高工作效率，解决日常问题

ChatGPTChatGPT是一款聊天机器人，可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。NotionAiNotion是一款强大的Al写作助手。它能根据输入的关键词，推荐相关的文章素材，可以帮助我们提高文章的质量和准确度。MidjourneyMidjo

分类标签 AI智能软件自媒体工作效率

11-28 08:47

谷歌推出适配Pixel手机的全神经元设备端语音识别器Gboard

最近华为和三星为新机像素互相掐架。神仙打架分外精彩，但智能手机，不是应该比谁更智能吗？大多数人都不知道Google有一个手机亲儿子——Pixel。近日网上有消息透露，谷歌将新推出Pixel3a和Pixel3aXL两款中端机型。比Google手机本身更惹人期待的是，可以适配所有Pixel手机的Gboa

分类标签谷歌Pixel手机语音识别器

11-20 10:16

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录国际顶级的语音技术圈会议INTERSPEECH2020于10月25-30日在中国上海举办，本次会议主题为“CognitiveIntelligenceforSpeechProcessing”。对话式人工智能平台公司

分类标签思必驰语音技术INTERSPEECH2020说话人识别语音识别口语语义理解

11-20 10:15

谷歌宣布增强Google Assistant技能，新增“阅读”功能

谷歌宣布新增“阅读”功能谷歌于今日宣布了一项名叫“阅读”（Readit）的Google Assistant增强技能。顾名思义，它可以帮助用户大声朗读网页文章、博客、或者短篇小说。在浏览相关网页的时候，你可唤出谷歌智能助理来执行这项操作，比如喊一声“Hey Google，Read this page”

分类标签谷歌GoogleAssistant阅读

11-20 10:14

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念早期的企业客户管理系统以SAP、Salesforce等为代表，通过打通企业内部的业务流，整合数据，帮助用户提升了运营效率。但随着互联网的发展以及消费市场竞争的加剧，获取全渠道、全触点消费者的体验信息并基于此改善企业产品服务逐渐成为重点，这一趋势在

分类标签 CEM客户体验管理视界信息

11-08 08:51

五款免费听歌APP推荐

五款免费听歌APP推荐现如今人们版权意识越来越高，音乐平台也开始了版权争夺战。以前每个平台都能听到喜欢的歌曲，现在却不得不在几个APP之间来回切换，实在是非常麻烦，也不知道这场版权争夺战什么时候能结束。但在此之前，我找到了5个非常不错的听歌APP分享给大家，希望各位都能在听歌的时候能够不受限制。1.

分类标签听歌APP免费下载播放器音乐平台

11-08 08:50

语音对话推荐：研究、数据集、评估与展望

引言近年来，推荐系统在工业界取得了巨大成功，甚至成为互联网发展中不可或缺的增长引擎，基于此研究者们也在积极探索推荐系统的新形态，其中对话推荐系统（Conversational Recommender System，简称CRS）作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多

分类标签语音对话推荐ConversationalRecommenderSystemVCRS

10-28 08:59

SoundHound或成AI语音助手竞赛中的大黑马

SoundHound或成AI语音助手竞赛中的大黑马据台湾《中时电子报》2月2日报道，除了Google Assistant、苹果Siri以及亚马逊Alexa之外，还有哪一款AI(人工智能)语音助手即将出头天？日前获得英伟达(NVIDIA)以及三星连手投资7500万美金的SoundHound，很可能将是

分类标签 AI语音助手SoundHound自动驾驶

10-28 08:57