首页 > 行业观察 > 语音对话推荐:研究、数据集、评估与展望

语音对话推荐:研究、数据集、评估与展望

新知榜官方账号

2023-10-28 08:59:28

引言

近年来,推荐系统在工业界取得了巨大成功,甚至成为互联网发展中不可或缺的增长引擎,基于此研究者们也在积极探索推荐系统的新形态,其中对话推荐系统(Conversational Recommender System,简称CRS)作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多轮对话,逐步了解用户的兴趣偏好,并向他们推荐可能感兴趣的物品。

然而在日常生活中,语音作为对话中常见且便捷的承载方式,除语义内容外,还包含性别、年龄、口音、情绪状态等更多信息。经过验证,这些信息可以有效提升对话推荐性能。更重要的一点,基于语音的对话推荐,对于视力障碍以及书写阅读能力有限的人群将会更加友好,因而更加包容。创新意味着挑战,面对语音对话推荐(Voice-based Conversational Recommender System,简称VCRS)这一全新的研究课题,没有可用的数据集是当下比较棘手的事情。

为了解决这个问题,火山语音团队联合新加坡科学研究院团队提出了首个VCRS Benchmark Dataset,论文入选SIGIR2023,旨在讲述该方面的研究,推动语音对话推荐(Voice-based Conversational Recommender System,简称VCRS)的发展。

VCRS数据集的生产过程

VCRS数据集的生产过程主要包括四个部分,分别是:骨干数据集选择(Backbone dataset selection)、文本对话生成(Text-based Conversation Generation)、语音对话合成(Voice-based Conversation Generation)和数据质量评估(Quality Evaluation)。

骨干数据集选择(Backbone dataset selection)

对于VCRS数据集生产,一个合格的候选骨干数据集需要包含三种信息,分别是用户-商品交互记录、商品特征以及用户特征。通过用户—商品交互记录以及商品特征可以合成文本对话,进而再凭借用户特征(性别、年龄等信息就)就可以完成语音对话合成。根据以上规则,该论文选取了Coat和MovieLens-1M两个数据集进行了实验。

文本对话生成(Text-based Conversation Generation)

论文提出根据对话模板进行slot filling的方式来完成对话语句的生成,该过程主要包含三个部分:模板生成(Template Generation)、模板选择(Template Selection)和特征选择(Feature Selection)。

语音对话合成(Voice-based Conversation Generation)

根据上述文本对话的生成结果,双方团队进一步利用语音合成系统将生成的文本对话转化为相应的语音对话,在此过程中主要采用了当前端到端的VITS系统。对于Agent的语音合成,使用了基于LJSpeech训练的单一说话人TTS模型;而对于User的语音对话合成,则采用了基于VCTK训练的多说话人TTS模型,在该模型中,依据推荐数据集中用户的辅助信息(年龄、性别),与VCTK数据集中的Speaker进行匹配,进而确定User的说话人ID。

数据质量评估(Quality Evaluation)

为了评估生成的数据质量,团队们分别从文本质量和语音质量两个维度对数据集进行了评估。在文本质量评估过程中使用了目前SOTA的FED(fine-grained evaluation of dialogue)指标,FED使用预训练的DialoGPT模型作为基准来对对话进行18个尺度的评估,具体细则既包含局部评分(如正确性,可读性及流畅性等),又包含了全局评分(如连贯性,一致性及多样性等)。对于语音对话的评估主要采用主观评测的方式。

语音对话推荐的未来发展

在推荐模型的训练过程中,语音对话首先经过语音编码器(Wave2Vec2)进行编码,并从中提取出辅助信息(性别、年龄)的表示;随后这些提取到的辅助信息被注入推荐模型中,这一步能够增强推荐模型的性能;此外团队们还给出了未来在语音对话推荐场景下端到端的方案。

实验结果

论文基于Factorization Machines(FM)在合成的语音对话推荐数据集进行了推荐性能的分析,具体结果所示:通过实验结果的观察,可以明显看出当语音中融入性别或年龄单一信息时,推荐模型的性能会显著提高;而当性别和年龄信息同时被引入时,模型的性能则进一步得到提升。这一系列实验结果表明,语音对话推荐研究的必要性以及重要性,甚至对于未来在端到端语音推荐场景下所能发现的更多信息充满了信心,在这个领域将会展现出更多令人振奋的发现。

结论

该文章介绍了语音对话推荐(VCRS)的研究现状,并提出了一个新的VCRS Benchmark Dataset,详细介绍了VCRS数据集的生产过程,探讨了语音对话推荐的未来发展,最后通过实验结果表明语音对话推荐的必要性和重要性。

本页网址:https://www.xinzhibang.net/article_detail-18203.html

寻求报道,请 点击这里 微信扫码咨询

关键词

语音对话推荐 Conversational Recommender System VCRS

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯

ChatGPT,Midjourney,文心一言,文心一格,bing新必应,Stable diffusion,文心一格,稿定设计,墨刀AI,mastergo,Adobe Firefly

短视频知识人物影响力榜

查看更多

新知榜独家 {{faTime.effecttime}}发布

总榜

人物 领域 粉丝数 影响力指数

{{item.manIndex}}

{{item.nickname}} {{item.field}}

{{item.fs}}

{{item.effect}}