斯坦福研究：生成式搜索引擎引用精确率低于75%

新知榜官方账号

2023-08-10 10:12:41

斯坦福研究：生成式搜索引擎引用精确率低于75%

斯坦福大学的研究人员收集了大量的用户查询，对四个大火的生成性搜索引擎进行了人工评估。实验结果发现，来自现有生成搜索引擎的回复流畅且信息量大，但经常包含没有证据的陈述和不准确的引用。平均来说，只有51.5%的引用可以完全支撑生成的句子，只有74.5%的引用可以作为相关句子的证据支持。研究人员认为，对于那些可能成为信息搜寻用户主要工具的系统来说，这个结果实在是过低了，特别是考虑到有些句子只是貌似可信的话，生成式搜索引擎仍然需要进一步优化。

可验证性（verifiability）是提升搜索引擎可信度的关键，即为生成答案中的每一句话都提供引文的外部链接来作为证据支撑，可以使用户更容易验证答案的准确程度。在不同类别的用户查询中，可以看到较短的提取性问题通常比长问题要更流畅，通常只回答事实性知识即可；一些有难度的问题通常需要对不同的表格或网页进行汇总，合成过程会降低整体的流畅性。

在引文评估中，可以看到现有的生成式搜索引擎往往不能全面或正确地引用网页，平均只有51.5%的生成句子得到了引文的完全支持（召回率），只有74.5%的引文完全支持其相关句子（精确度）。这个数值来说对于已经拥有数百万用户的搜索引擎系统来说是不可接受的，特别是在生成回复往往信息量比较大的情况下。并且不同的生成式搜索引擎之间的引文召回率和精确度有很大差异，其中perplexity.ai实现了最高的召回率（68.7），而NeevaAI（67.6）、BingChat（58.7）和YouChat（11.1）较低。另一方面，BingChat实现了最高的精确度（89.5），其次是perplexity.ai（72.7）、NeevaAI（72.0）和YouChat（63.6）。

评估指标主要包括流畅性，即生成的文本是否连贯；有用性，即搜索引擎的回复对于用户来说是否有帮助，以及答案中的信息是否能够解决问题；引用召回，即生成的关于外部网站的句子中包含引用支持的比例；引用精度，即生成的引用支持其相关句子的比例。

个人主页：https://cs.stanford.edu/~nfliu/

第一作者NelsonLiu是斯坦福大学自然语言处理组的四年级博士生，导师为PercyLiang，本科毕业于华盛顿大学，主要研究方向为构建实用的NLP系统，尤其是用于信息查找的应用程序。

参考资料：https://arxiv.org/abs/2304.09848

本页网址：https://www.xinzhibang.net/article_detail-9673.html

寻求报道，请

关键词

分享至微信：

相关工具

文心一言

百度推出的基于文心大模型的AI对话互动工具

Neeva

集成了AI问答的AI搜索引擎

天工AI助手

昆仑万维与奇点智源联合研发的对标ChatGPT的大语言模型

Poe

问答社区Quora推出的问答机器人工具

Forefront

免费版基于GPT-4的AI聊天机器人

MOSS

复旦大学团队开发的对话式大型语言模型

产品周报276期

产品周报276期本期产品周报主要报道了Google发布AI大模型Gemini和腾讯NOW直播宣布停止运营的消息。这些消息对于产品经理和市场人员来说都具有重要意义，需要关注和深入了解。Google发布AI大模型Gemini近日，Google发布了一款名为Gemini的AI大模型，该模型在自然语言处理、

分类标签 GoogleAIGemini

12-09 08:07

回顾GPT大模型2023

回顾GPT大模型2023在2023年，GPT大模型成为了人工智能领域的明星。五大顶级公司都对2024年的AI产品发展进行了预测，其中连诗路AI产品备受关注。在市场上，AI产品的需求也越来越大。作为一名专业产品经理，我们需要关注市场需求并不断更新自己的产品。未来的AI产品将会越来越普及，我们需要不断地

分类标签 GPT大模型AI产品连诗路顶级公司市场

12-09 08:06

竞速AI大模型，飞书打得过钉钉吗？

竞速AI大模型，飞书打得过钉钉吗？2023年11月29日，DoNews发布评论《竞速AI大模型，飞书打得过钉钉吗？》。该文章探讨了飞书与钉钉在竞速AI大模型领域的竞争关系。作为国内两大主流企业通讯工具，飞书和钉钉一直以来都在追求更好的用户体验和更强大的功能。随着人工智能技术的不断发展，AI大模型已经

分类标签竞速AI大模型飞书钉钉

12-01 08:05

AI伴侣：当孤独遇到算法

AI伴侣：当孤独遇到算法在电影《她》中，主人公Theodore沉浸在与妻子离异后的郁闷期，后来在一次偶然机会中其认识了“Samantha”（人工智能系统）。很快，他们坠入爱河。随着甜蜜期的褪去，Samantha开始问自己：“这份爱是按照算法程序写好的吗?”而实际上，作为AI操作系统的Samantha

分类标签 AI伴侣虚拟伴侣聊天机器人

11-27 02:24

AI原生时代，大模型创业有“捷径”深渡Cross关注

AI原生时代，大模型创业有“捷径”深渡Cross关注近年来，随着人工智能技术的飞速发展，大模型成为了人们关注的热点。在AI原生时代，大模型创业成为了许多创业者的选择。然而，大模型创业面临着巨大的挑战，如何实现商业化应用成为了创业者们需要解决的重要问题。深渡Cross作为一家专注于大模型创业的公司，成

分类标签 AI原生时代大模型创业深渡Cross

11-16 08:03

谷歌人工智能聊天机器人LaMDA被指具有灵魂引争议

据《华尔街日报》6月13日消息，谷歌一位软件工程师表示，有“开放式对话黑科技”之称的谷歌人工智能聊天机器人LaMDA已经有了人一样的感知力，甚至具有了人的“灵魂”。随后，谷歌暂停了他的职务，并否认了他的说法。当事人称，因为违反公司的保密协议，现在他快被解雇了。LaMDA，为啥被叫做“黑科技”？LaM

分类标签谷歌人工智能聊天机器人LaMDA灵魂伦理问题

11-04 02:30

10款最佳聊天机器人工具

10款最佳聊天机器人工具本文介绍了10款最佳聊天机器人工具，它们能够帮助您跨社交媒体平台、不同站点和应用程序与客户互动和沟通。1. FlowXOFlowXO是一款自动化软件，用于构建聊天机器人，帮助您虚拟欢迎电子商务网站的新访问者、收集用户详细信息、回答简单的问题或链接到任何文章，并且允许您在实时聊

分类标签聊天机器人人工智能自动化软件

11-04 02:29

AI辅助编程初创公司Kite宣布停止开发

AI辅助编程初创公司Kite宣布停止开发当地时间11月16日，AI辅助编程初创公司Kite宣布将停止开发Kite，且不再支持Kite软件。从2014年至2021年，Kite创始人AdamSmith对公司这七年的失败原因进行了总结。失败原因第一，企业未能实现AI辅助编程的愿景。Smith认为进入市场早

分类标签 KiteAI辅助编程失败原因

10-20 10:14

头部企业AI大模型应用收集分析

头部企业AI大模型应用收集分析随着人工智能的不断发展和应用，越来越多的企业开始关注AI大模型的应用。本文将从产品经理和市场的角度，全面重写这篇文章，对头部企业AI大模型应用的收集和分析进行详细介绍。一、背景随着信息时代的到来，企业面临着海量数据的挑战。如何从这些数据中提取有用信息，已经成为企业发展的

分类标签企业AI大模型应用收集分析

10-20 06:02

AI引领RFM模型革命性突破

AI引领RFM模型革命性突破近年来，随着人工智能技术的快速发展，越来越多的企业开始将其应用于客户管理中。其中，AI在RFM模型中的应用，带来了革命性的突破，提高了客户管理的效率。什么是RFM模型？RFM模型是一种客户价值分析模型，通过对客户消费行为的分析，将客户分为不同的等级，以便企业更好地了解客户

分类标签 AIRFM模型客户管理策略

10-18 05:02

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway