语音交互和智能音箱的未来

新知榜官方账号

2023-09-30 16:24:39

语音交互和智能音箱的未来

机器学习以及自然语言处理技术的进步，开启了人与人工智能进行语音交互的可能，人们透过对话的方式获取信息、与机器进行交互，将不再只是存在科幻情结当中。语音交互是未来的方向，而智能音箱则是语音交互落地的第一代产品。

一、语音交互流程简介

AI对话所需要的技术模块有4个部分，分别为：自动语音识别（AutomaticSpeechRecognition,ASR）自然语言理解（NaturalLanguageUnderstanding,NLU）自然语言生成（NaturalLanguageGeneration,NLG）文字转语音（TexttoSpeech,TTS）

二、语音交互流程设计

一次完整的语音交互流程，成功的语音对话，通常是有以下几个阶段。

交互流程的核心—意图所谓意图，表示用户在使用应用时所做的动作(譬如：问一个问题或发送一条指令)，这些意图代表了应用的核心功能。如果应用成功地识别了用户意图，则需要在完成业务动作后，将结果反馈给用户；如果应用无法识别用户意图，则需要给用户友好的提示，指导用户使用。
如何识别意图—语义解析对语音识别结果进行分析理解，简单来说就是将用户语音输入映射到机器指令。
如何处理意图—云端交互调用意图的结构化请求，向服务器请求处理后做出反馈响应。通俗来讲该流程主要处理用户的请求，解决用户问题的答案。
上下文意图的处理-对话管理在用户进行自然对话时，可能会因为表达事情的复杂度、时间、地点、效率等，产生具有脉络的对话过程，所有的对话元素会编织在一个连贯的线性对话中。

数据堂自制版权的系列数据集产品为“自然对话语音数据”这一技术路径的实现提供了强有力的支持。1,351小时普通话自然对话语音数据（手机+录音笔）该数据由1950名发音人参与录制，以自然方式进行面对面交流，针对给定的数个话题自由发挥，领域广泛，语音自然流利，符合实际对话场景。1,351小时普通话自然对话语音数据由人工转写文本，准确率高。

三、中文自然语言处理的关键技术

1、词法分析 2、句法分析 3、语义分析 4、语用分析 5、语境分析

四、Ai对话目前存在的问题

人机对话过程中，用户难免会出现表达失误的情况，导致机器对用户语言理解出现偏差，在这时，纠错机制对机器而言则非常重要，如缺少这个机制，用户需要花费相当长的时间将其意图解释清楚，相应的用户体验也会十分糟糕。另一方面，虽然可以很好的识别语音，但是却不能理解你的对话目的，语义理解上有偏差。当前，包括Alexa在内的国内外智能音箱之所以没有表现的那么智能，出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。因此语音交互最终需要解决的关键问题是歧义消解问题，和未知语言现象的处理问题。

五、智能语音助手背后的生态服务

AmazonEcho的胜利在于其语音助手Alexa掌握的无数技能，GoogleAssistant以及GoogleHome之所以被人看好是在于其Android后发优势所具备的开放性。智能语音助手类的产品要想在中国落地开花，它不仅仅是简单的语音识别那么简单，还有集成服务，一整套的中文生态、内容、服务等配套设施，是一种涵盖很多基础能力的生态系统。未来基于语音交互的语义技能，必须要能够达到几万、几十万甚至上百万种的时候，才能促使语音交互时代操作系统真正走向成熟，未来语音交互产品的形态和样式也将越来越丰富。让我们期待未来Ai语音交互的蓬勃发展，期待未来对技术的无限挑战！

本页网址：https://www.xinzhibang.net/article_detail-14516.html

寻求报道，请

关键词

分享至微信：

相关工具

Unscreen

AI智能视频背景移除工具

Lumen5

AI将博客文章转换成视频

AVCLabs

AI自动移除视频背景

Hour One

人工智能文字到视频生成

Wonder Studio

AI自动为CG角色制作动画、打光并将其合成到真人场景中

Gencraft

AI艺术画视频生成工具

周杰伦新歌《说好不哭》上线，AI能否模仿他的风格？

周杰伦新歌《说好不哭》火爆网络Jay迷编辑部发自凹非寺量子位报道|公众号QbitAI你今早被周杰伦刷屏了吗？新专辑单曲《说好不哭》昨晚23点上线，迅速火遍社交网络，刷屏朋友圈，27分钟上热搜第一，带火MV男主女主，一榜微博热搜里，7个都是周杰伦新歌相关……。单曲售价3元，上线7分钟，销售额破500万

分类标签周杰伦新歌AI

04-18 16:42

谷歌AI的七个“不正经”玩法

谷歌AI的七个“不正经”玩法谷歌最近发布了几只比较搞笑的AI，可以完成一些不走寻常路的工作，比如帮你实现靠脸吃饭，让你说的跟唱的一样。以下是谷歌AI的七个“不正经”玩法：说的跟唱的一样跳着舞就把琴弹了靠脸吃饭用声音画画这些玩法背后的AI动力，主要是谷歌的TensorFlow.js等工具，让机器学习技

分类标签谷歌AI不正经玩法创造力音乐可视化

04-18 16:42

AI绘图与人类绘图的优劣势分析

1. AI绘图和人类绘图的优劣势AI绘图技术通常使用机器学习和深度学习算法，可以在大量数据的基础上进行学习和模拟，从而自动生成图像。与人类绘图相比，AI绘图可以在很短的时间内生成大量图像，而且不会因为疲劳或情感变化而产生质量波动。然而，AI绘图仍然存在一些局限性。例如，由于机器无法理解艺术的概念和感

分类标签 AI绘图人类绘图机器学习

04-18 16:42

每日必看的AI前沿

每日必看的AI前沿IT之家报道，谷歌DeepMind最近推出了AI音乐生成大模型Lyria和两个新功能DreamTrack和MusicAI。用户可以使用DreamTrack输入文本提示并挑选参与的音乐人（包括AlecBenjamin、CharliePuth等），从而获得模仿音乐人风格的30秒原创音乐

分类标签 AIDeepMindCircularRingSlim

04-18 16:42

用文字创作音乐？Google最新人工智能模型MusicLM可以实现！

MusicLM的原理、特点和用途MusicLM是Google在今年一月发布的一个革命性的人工智能模型，它是基于Google的AudioLM模型开发的，它是一个专门针对音乐的语言模型。它可以理解和生成不同的音乐元素，如旋律、节奏、和声、风格等。它可以根据用户输入的文本描述，如“一段平静的吉他旋律，6/

分类标签 MusicLM人工智能音乐创作

04-18 16:42

生成式AI与仿真

生成式AI和仿真模型广泛应用于各行各业，以优化流程、为决策提供信息并创建数字孪生。几十年来，仿真模型一直被用来对复杂的系统和过程进行建模。这些模型的发展是由计算能力的进步以及收集和分析大型数据集的能力推动的。将人工智能（特别是生成式人工智能）集成到仿真模型中代表了其发展的下一步，使组织能够创建更准确

分类标签仿真模型生成式AI数字孪生优化流程决策元宇宙

04-18 16:42

Google的Lyria：人工智能音乐生成模型的未来

Lyria：人工智能音乐生成模型的未来Lyria是一个先进的人工智能音乐生成模型，它可以根据用户的输入生成高质量的歌曲，包括歌词、旋律、节奏和人声。Lyria是由GoogleDeepMind开发的，它可以模仿流行歌手的风格和声音，也可以让用户对输出的风格和表现有更细致的控制。Lyria目前正在You

分类标签 GoogleLyria人工智能音乐DreamTrack

04-18 16:42

AI绘画：StableDiffusion从入门到精通

AI绘画：StableDiffusion从入门到精通本书从艺术教育工作者和现代艺术设计师的视角，系统地介绍了人工智能绘画的相关知识与应用技能。全书内容涵盖了AI绘画的发展、原理、工具与应用，并重点围绕主流工具StableDiffusion进行详细介绍。书中深入讲解了软件的操作、指令控制、图生图技巧、

分类标签 AI绘画StableDiffusion人工智能

04-18 16:42

泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART021

泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART02111月11日-14日，泡泡玛特旗下艺术推广机构innerflow首次亮相上海ART021，展出多位国内外合作艺术家的画作及雕塑。innerflow创立于2021年，旨在与全球画廊、艺术家联合打造高端艺术衍生品，目前主要开发的品类有版画

分类标签 innerflow艺术衍生品ART021

12-05 02:09

哪些绘画生成app能够生成山水画效果？

绘画生成app能够生成山水画效果随着数字技术的不断发展，人们对于艺术创作的方式也发生了巨大的变化。如今，借助于智能手机和应用程序，我们可以在指尖上创造出各种令人惊叹的艺术作品。而当谈到绘画生成app时，有一个特别引人注目的功能：生成山水画效果。那么，有哪些绘画生成app能够提供这样的功能呢？本文将从

分类标签绘画生成app山水画效果美术加AIappArtFlow

12-02 22:16