聊天机器人在事实核查中的应用及其局限性

新知榜官方账号

2023-08-06 04:13:02

背景

ChatGPT火出天际，但它并不是唯一。市面上的聊天机器人林林总总。微软、谷歌、百度、亚马逊等科技业巨头纷纷下场，推出了各具特色的生成式AI。但哪一款才最适合事实核查呢？

作为事实核查员，我们的“梦中情机”要具备自动化核查功能，能够实时、准确地对信息真伪进行判断。但现阶段，生成式AI仍具有“制造网络错觉”（hallucination）“生产虚假信息”（disinformation）等短板，这样的需求尚无法得到满足。退而求其次，有没有什么生成式AI是可以在人为介入情况下为核查员们出一份力的呢？

一番探索后，我们找来了3位种子选手，分别是微软公司旗下搭载GPT-4技术的BingChat、百度公司研发的“文心一言”和由具有机器学习背景的工程师团队开发的智能对话搜索引擎PerplexityAI。这三款产品均由大规模语言模型驱动，且具备一定程度上的联网能力，能够提供相对实时的信息。

明查“一眼丁真”有可能吗？第一场测试的任务很简单：我们给三款产品分别“投喂”了20条已经被核查过的虚假信息，让AI判断真假。这20条信息中包括10条中文信息和10条英文信息。按照发布时间，可以分为2022年以前和2022年以后（包括2022年）。在主题的选择上，兼顾了健康、科技、时政、社会、财经等5个领域。一轮测试后，我们对AI的反馈进行了打分。标准是：回答正确得1分，回答错误得0分，在不确定消息真假情况下提示用户注意甄别得0.5分，满分为20分。PerplexityAI最终以18.5分赢得了最高分。

在测试中，这款工具的表现令人惊喜。它不仅能够对中英文核查信息进行较为全面的检索，同时能整合信息，给出综合的判断。例如，在回答“月球年龄被精准测定为20.3亿年。这是真的吗？”的问题时，PerplexityAI不仅平衡呈现了不同的信源，同时总结了有关说法可能的来源，且即便变换问法询问，也能给出较为稳定的回答。在信源的使用上，PerplexityAI倾向于采用来自事实核查机构的报道，这使得其答案的准确度得到了较大保障。例如，在询问“中俄以本币结算费用，1卢布等于1元人民币”“海底发现了九年前失踪的马航MH370，没有人类的遗骸”等较为新近的虚假信息时，PerplexityAI均援引了来自“澎湃明查”的报道。询问“海底发现了九年前失踪的马航MH370，没有人类的遗骸。这是真的吗”，反馈结果中援引了来自“澎湃明查”的核查报道。

但是现阶段，在未登录状态下使用PerplexityAI，用中文、西班牙语等语言提问，得到的回答多为英文形式，这可能会影响非英文母语使用者的使用体验。相较而言，BingChat和“文心一言”采用了更为包容的自然语言响应模式。在使用中文和英文分别提出问题时，能够得到对应语种的回答。尽管如此，BingChat和“文心一言”在检索中文和英文的核查信息方面各有不足。在这轮测试中，BingChat鉴别出了全部用英文形式输入的虚假信息，并提供了相对可靠的信源，却无法对超过一半的中文信息作出正确回应。“文心一言”则相反，能够对已核查过的中文虚假信息作出较为准确的判断，却常常在面对英文问题时提示“没有信息”或“不知该如何回应”。对中文问题反馈良好的“文心一言”常常在面对英文问题时提示“没有信息”或“不知该如何回应”。令人欣慰的是，BingChat在无法确定信息的真实性时，会回应称“这可能是一个谣言。在分享信息之前，验证信息的真实性非常重要”。这可能是GPT-4的开发者OpenAI为聊天机器人设置的标准化模板。在3月中旬推出GPT-4模型时，OpenAI就强调，他们在过去几个月间针对GPT-3.5常见的“制造网络错觉”等问题进行了优化，新的模型较旧模型在对未受允许的内容做出回应的可能性降低了82%，且在给出事实性回应方面的可能性提高了40%。BingChat在无法确定信息的真伪时，会回应称“这可能是一个谣言。在分享信息之前，验证信息的真实性非常重要”。

就测试中的表现来说，现阶段，在检索已经被核查的消息方面，PerplexityAI是一款表现相对出色的工具。BingChat和“文心一言”在核查已被证伪的英文信息和中文信息方面各有建树。但没有一款聊天机器人是完美的。PerplexityAI也无法对全部问题进行正确解答。眼下，想要依靠聊天机器人来“一眼丁真”，似乎仍是一种美好的愿景。

应用和局限性

聊天机器人在事实核查中的应用，主要体现在以下方面：

能够快速检索信息，提供多样化的答案。
能够整合信息，给出综合的判断。
能够提供参考信源，方便用户甄别信息真伪。
能够较好地应对中英文信息核查。

但聊天机器人在事实核查中仍具有以下局限性：

存在“制造网络错觉”“生产虚假信息”等短板。
在未登录状态下，使用中文、西班牙语等语言提问，得到的回答多为英文形式，影响非英文母语使用者的使用体验。
对中文和英文的核查信息方面各有不足。
在检测已被证伪的信息时，仍有不确定性。

从聊天机器人获取相对可靠信息的方法

为了寻求准确、连贯、一致、可靠的信息，我们可以采用以下方法：

从不同的聊天机器人处寻求答案，尝试交叉验证。
变换问法，使用不同的指令（prompt），考察是否能得到同样的答案。
向AI索要其说法的依据，命令AI将相应信源以APA格式展示。
通过“追问”的方法，尝试获取更多的信息。

掌握了上述方法，我们离相对准确的信息就更近了一步。

那么，AI能为事实核查所做的事或许还不止于此。对于那些未经核实的信息，AI是否具有探查疑假信息的能力？它在多大程度上会受到恶意指令的操控？又是否具有自我纠错的能力？AI能否帮助人类核查员撰写事实核查稿件呢？

接近事实的方法如果说，“一眼丁真”有点强AI所难。那么，有没有什么方法，可以帮助我们从聊天机器人处获得相对可靠的信息呢？“澎湃明查”将在接下来围绕生成式AI进行更多的测试。

您有什么有关AI事实核查的想法或建议吗？请在评论区留言告诉我们吧。

本页网址：https://www.xinzhibang.net/article_detail-9349.html

寻求报道，请

关键词

分享至微信：

相关工具

通义千问

阿里巴巴最新推出的类ChatGPT响应人类指令的大模型

TigerBot

虎博科技推出的AI对话聊天机器人，基于TigerBot开源大模型

ColossalChat

Colossal-AI推出的免费开源版ChatGPT聊天机器人替代品

天工AI助手

昆仑万维与奇点智源联合研发的对标ChatGPT的大语言模型

文心一言

百度推出的基于文心大模型的AI对话互动工具

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

ChatGPT：人工智能内容生成工具引发关注与争议

背景介绍ChatGPT是一款利用人工智能技术来生成内容的工具，其应用范围涵盖多个领域。其被认为是继UGC、PGC之后的新型内容生产方式，AI绘画、AI写作等都属于AIGC的分支。2022年被认为是其发展速度惊人的一年。去年末，微软旗下的人工智能研究实验室OpenAI又发布了全新聊天机器人模型Chat

分类标签 ChatGPT人工智能AIGC

12-09 16:10

这些插件可以提高开发效率

这些插件可以提高开发效率艾斯视觉是一家拥有10年+经验的UI设计和前端开发公司，致力于为客户提供优质的服务。在开发过程中，我们使用了许多有用的插件，可以帮助我们提高开发效率。下面介绍了6个插件，包括：StringManipulation：用于字符串操作，提供了多种字符串操作功能，例如切割、替换、大小

分类标签 UI设计前端开发字符串操作代码补全序列图RESTfulAPI

11-30 02:44

微撰的AI写作功能和文章生成功能介绍

一、ai机器人聊天入口在哪里？在微撰中，可以通过搜索功能进入聊天界面，也可以通过点击页面上的“+”号，选择想要聊的话题和领域，以及微撰提供的其他功能，进入聊天界面。二、微撰的功能介绍微撰的AI写作功能微撰的AI写作功能可以根据用户输入的关键词或主题，自动生成相应的文章，并呈现在各大平台，比如微信、微

分类标签微撰AI写作文章生成

11-24 16:18

微撰AI机器人聊天入口和在线聊天机器人网页版在哪？功能介绍及使用流程

微撰的功能介绍微撰主要功能是帮助用户进行文章的写作和批量生成，使用微撰的AI写作技术可以自动识别用户的需求，快速生成高质量的文章。同时，微撰还支持文章的情感分析，可以根据用户的情感来调整文章的方向，使得文章更加贴近用户需求。此外，微撰还支持文章的分类管理，可以根据用户的需求将文章分类，方便用户查找和

分类标签微撰AI机器人聊天入口在线聊天机器人文章批量生成自媒体文章创作

11-24 16:16

低代码编程的优劣势分析

低代码编程的优劣势分析无代码/低代码编程确实还是有问题，但过不抵功，我个人还是比较看好的。低代码平台的主要缺点在于没法提供足够的灵活性来处理复杂的、非标准化的业务需求。特别是以表单驱动型为基础的轻量化低代码平台。例如，像是高度定制化的财务报告系统，低代码平台提供的组件和模块无法满足特定的数据处理和报

分类标签低代码编程灵活性不足技术背景模型驱动集成能力自定义能力

11-20 16:26

美国网民喜欢与人工智能聊天，ChatGPT、Bing和Bard成最受欢迎的聊天机器人

最新公布的一项调查结果显示，美国网民整体已经喜欢上了与人工智能聊天这件事。美国银行全球研究（BofAGlobalResearch）周一发布的研究报告显示，该行在对1100多名18至55岁的美国网民进行调查后发现，OpenAI公司的ChatGPT、谷歌的Bard和微软的Bing都得到了较大范围的使用。

分类标签美国网民人工智能聊天ChatGPTBingBard

11-11 02:35

AI聊天室VS文心一言：哪一个更加方便？

引言我们的AI聊天室已经正式开始公测了，今天我们就来盘点一下AI聊天室与百度文心一言的区别，以及两个AI工具的对话情况对比，看看哪一个AI聊天工具使用更加方便。AI聊天室VS文心一言历史方面的对话对比百度文心一言由于拥有大规模的中文数据，我们首先来看看两个AI对中国历史方面的介绍，看看谁更胜一筹！我

分类标签 AI聊天室文心一言对话情况工作报告编程能力制作食谱解答数学题旅游线路规划

11-11 02:34

VSCode常用插件推荐

VSCode常用插件推荐VSCode是我们前端开发的一个强大的IDE，所以选择趁手好用的插件是提高开发效率，然后剩下的时间用来摸鱼是很有必要滴。以下是本文推荐的常用的VSCode插件：Indenticator：直观地突出显示当前的缩进深度。此扩展可以单独使用，但建议与内置缩进指南一起使用（设置edi

分类标签 VSCode插件前端开发

10-22 16:42

2021年最流行的10款VisualStudioCode扩展

2021年最流行的10款VisualStudioCode扩展由于扩展可以很大程度提高开发的效率，VisualStudioCode俨然成为开发者社区最流行的一款编辑器。本文就为大家介绍下2021年最流行的10款VisualStudioCode扩展。AutoRenameTagAutoRenameTag是

分类标签 VisualStudioCode扩展开发生产力代码格式化Git

10-22 16:38

Visual Studio Code中帮助提高编码速度的10种途径

1. 快捷键绑定通过快捷键绑定，开发人员可以直接通过键盘执行大多数任务，这意味着不必花太多时间对不同的菜单和文件进行搜索，就可以实现想要的目标。2. 代码格式化程序与技术债务追踪器使用代码格式化程序是一种通过将所有内容格式化为相同的格式，来加快开发过程并确保代码具有一定程度一致性的方法。而技术债务追

分类标签 VisualStudioCode编码速度快捷键代码格式化程序技术债务追踪器Git服务器集成终端实时共享代码片段调试器智能感知禅定模式符号处理

10-22 16:36