语音对话推荐：研究、数据集、评估与展望

新知榜官方账号

2023-10-28 08:59:28

引言

近年来，推荐系统在工业界取得了巨大成功，甚至成为互联网发展中不可或缺的增长引擎，基于此研究者们也在积极探索推荐系统的新形态，其中对话推荐系统（Conversational Recommender System，简称CRS）作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多轮对话，逐步了解用户的兴趣偏好，并向他们推荐可能感兴趣的物品。

然而在日常生活中，语音作为对话中常见且便捷的承载方式，除语义内容外，还包含性别、年龄、口音、情绪状态等更多信息。经过验证，这些信息可以有效提升对话推荐性能。更重要的一点，基于语音的对话推荐，对于视力障碍以及书写阅读能力有限的人群将会更加友好，因而更加包容。创新意味着挑战，面对语音对话推荐（Voice-based Conversational Recommender System，简称VCRS）这一全新的研究课题，没有可用的数据集是当下比较棘手的事情。

为了解决这个问题，火山语音团队联合新加坡科学研究院团队提出了首个VCRS Benchmark Dataset，论文入选SIGIR2023，旨在讲述该方面的研究，推动语音对话推荐（Voice-based Conversational Recommender System，简称VCRS）的发展。

VCRS数据集的生产过程

VCRS数据集的生产过程主要包括四个部分，分别是：骨干数据集选择（Backbone dataset selection）、文本对话生成（Text-based Conversation Generation）、语音对话合成（Voice-based Conversation Generation）和数据质量评估（Quality Evaluation）。

骨干数据集选择（Backbone dataset selection）

对于VCRS数据集生产，一个合格的候选骨干数据集需要包含三种信息，分别是用户-商品交互记录、商品特征以及用户特征。通过用户—商品交互记录以及商品特征可以合成文本对话，进而再凭借用户特征（性别、年龄等信息就）就可以完成语音对话合成。根据以上规则，该论文选取了Coat和MovieLens-1M两个数据集进行了实验。

文本对话生成（Text-based Conversation Generation）

论文提出根据对话模板进行slot filling的方式来完成对话语句的生成，该过程主要包含三个部分：模板生成（Template Generation）、模板选择（Template Selection）和特征选择（Feature Selection）。

语音对话合成（Voice-based Conversation Generation）

根据上述文本对话的生成结果，双方团队进一步利用语音合成系统将生成的文本对话转化为相应的语音对话，在此过程中主要采用了当前端到端的VITS系统。对于Agent的语音合成，使用了基于LJSpeech训练的单一说话人TTS模型；而对于User的语音对话合成，则采用了基于VCTK训练的多说话人TTS模型，在该模型中，依据推荐数据集中用户的辅助信息（年龄、性别），与VCTK数据集中的Speaker进行匹配，进而确定User的说话人ID。

数据质量评估（Quality Evaluation）

为了评估生成的数据质量，团队们分别从文本质量和语音质量两个维度对数据集进行了评估。在文本质量评估过程中使用了目前SOTA的FED(fine-grained evaluation of dialogue)指标，FED使用预训练的DialoGPT模型作为基准来对对话进行18个尺度的评估，具体细则既包含局部评分(如正确性，可读性及流畅性等)，又包含了全局评分(如连贯性，一致性及多样性等)。对于语音对话的评估主要采用主观评测的方式。

语音对话推荐的未来发展

在推荐模型的训练过程中，语音对话首先经过语音编码器（Wave2Vec2）进行编码，并从中提取出辅助信息（性别、年龄）的表示；随后这些提取到的辅助信息被注入推荐模型中，这一步能够增强推荐模型的性能；此外团队们还给出了未来在语音对话推荐场景下端到端的方案。

实验结果

论文基于Factorization Machines(FM)在合成的语音对话推荐数据集进行了推荐性能的分析，具体结果所示：通过实验结果的观察，可以明显看出当语音中融入性别或年龄单一信息时，推荐模型的性能会显著提高；而当性别和年龄信息同时被引入时，模型的性能则进一步得到提升。这一系列实验结果表明，语音对话推荐研究的必要性以及重要性，甚至对于未来在端到端语音推荐场景下所能发现的更多信息充满了信心，在这个领域将会展现出更多令人振奋的发现。

结论

该文章介绍了语音对话推荐（VCRS）的研究现状，并提出了一个新的VCRS Benchmark Dataset，详细介绍了VCRS数据集的生产过程，探讨了语音对话推荐的未来发展，最后通过实验结果表明语音对话推荐的必要性和重要性。

本页网址：https://www.xinzhibang.net/article_detail-18203.html

寻求报道，请

关键词

分享至微信：

相关工具

Beatoven.ai

免版税AI音乐创建平台

WellSaid Labs

AI文本转语音工具

AssemblyAI

转录和理解语音的AI模型

Veed AI Voice Generator

Veed推出的AI语音生成器

Resemble.ai

AI人声生成工具

Lemonaid

AI音乐生成工具

Achronix如何降低ASR解决方案的成本

概述本篇白皮书详细介绍了自动语音识别（ASR）的应用场景，以及Achronix如何在实现ASR解决方案的同时将相关成本降低高达90%。交互式人工智能（CAI）简介什么是交互式人工智能（AI）？交互式人工智能（CAI）使用机器学习（ML）的子集深度学习（DL），通过机器实现语音识别、自然语言处理和文本

分类标签自动语音识别交互式人工智能CAINLPASRFPGA

12-07 22:33

如何做到每天进步

如何做到每天进步如果你现在没有那么厉害，不要紧，只要你努力，只要你尽力而为。首先，要明确跟自己比较的重要性。竞争是无处不在的，但是我们更应该关注的是自己的个人成长和发展。每天努力比上次做得更好，后天也是，天天比昨天好。我们要竭尽所能，不断进步，才能提高个人竞争力。其次，要制定目标和计划。明确自己的目

分类标签自我超越努力进步个人竞争力

11-30 16:12

8款AI智能软件，提高工作效率，解决日常问题

ChatGPTChatGPT是一款聊天机器人，可以写邮件、写论文、写视频脚本，翻译、敲代码等，能够帮助我们提高工作效率，解决各种日常问题。NotionAiNotion是一款强大的Al写作助手。它能根据输入的关键词，推荐相关的文章素材，可以帮助我们提高文章的质量和准确度。MidjourneyMidjo

分类标签 AI智能软件自媒体工作效率

11-28 08:47

谷歌推出适配Pixel手机的全神经元设备端语音识别器Gboard

最近华为和三星为新机像素互相掐架。神仙打架分外精彩，但智能手机，不是应该比谁更智能吗？大多数人都不知道Google有一个手机亲儿子——Pixel。近日网上有消息透露，谷歌将新推出Pixel3a和Pixel3aXL两款中端机型。比Google手机本身更惹人期待的是，可以适配所有Pixel手机的Gboa

分类标签谷歌Pixel手机语音识别器

11-20 10:16

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录

思必驰-上海交通大学智能人机交互联合实验室10篇论文被INTERSPEECH2020收录国际顶级的语音技术圈会议INTERSPEECH2020于10月25-30日在中国上海举办，本次会议主题为“CognitiveIntelligenceforSpeechProcessing”。对话式人工智能平台公司

分类标签思必驰语音技术INTERSPEECH2020说话人识别语音识别口语语义理解

11-20 10:15

谷歌宣布增强Google Assistant技能，新增“阅读”功能

谷歌宣布新增“阅读”功能谷歌于今日宣布了一项名叫“阅读”（Readit）的Google Assistant增强技能。顾名思义，它可以帮助用户大声朗读网页文章、博客、或者短篇小说。在浏览相关网页的时候，你可唤出谷歌智能助理来执行这项操作，比如喊一声“Hey Google，Read this page”

分类标签谷歌GoogleAssistant阅读

11-20 10:14

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念

云听CEM：帮助企业管理客户体验的新兴企业客户管理概念早期的企业客户管理系统以SAP、Salesforce等为代表，通过打通企业内部的业务流，整合数据，帮助用户提升了运营效率。但随着互联网的发展以及消费市场竞争的加剧，获取全渠道、全触点消费者的体验信息并基于此改善企业产品服务逐渐成为重点，这一趋势在

分类标签 CEM客户体验管理视界信息

11-08 08:51

五款免费听歌APP推荐

五款免费听歌APP推荐现如今人们版权意识越来越高，音乐平台也开始了版权争夺战。以前每个平台都能听到喜欢的歌曲，现在却不得不在几个APP之间来回切换，实在是非常麻烦，也不知道这场版权争夺战什么时候能结束。但在此之前，我找到了5个非常不错的听歌APP分享给大家，希望各位都能在听歌的时候能够不受限制。1.

分类标签听歌APP免费下载播放器音乐平台

11-08 08:50

SoundHound或成AI语音助手竞赛中的大黑马

SoundHound或成AI语音助手竞赛中的大黑马据台湾《中时电子报》2月2日报道，除了Google Assistant、苹果Siri以及亚马逊Alexa之外，还有哪一款AI(人工智能)语音助手即将出头天？日前获得英伟达(NVIDIA)以及三星连手投资7500万美金的SoundHound，很可能将是

分类标签 AI语音助手SoundHound自动驾驶

10-28 08:57

微撰AI人工智能对话的实现和功能分析

引言随着人工智能技术的不断发展，人工智能对话已经成为人们日常生活的一部分。微撰作为一款AI工具，具备多种AI功能，包括ai写作、ai聊天、文案写作、批量生成等，可以通过对话实现与用户的交互。本文将探讨如何实现ai人工智能对话，并结合微撰的功能进行分析。如何实现ai人工智能对话要实现ai人工智能对话，

分类标签微撰AI人工智能对话写作聊天文案写作批量生成

10-28 08:56