新知榜官方账号
2023-08-06 04:13:02
ChatGPT火出天际,但它并不是唯一。市面上的聊天机器人林林总总。微软、谷歌、百度、亚马逊等科技业巨头纷纷下场,推出了各具特色的生成式AI。但哪一款才最适合事实核查呢?
作为事实核查员,我们的“梦中情机”要具备自动化核查功能,能够实时、准确地对信息真伪进行判断。但现阶段,生成式AI仍具有“制造网络错觉”(hallucination)“生产虚假信息”(disinformation)等短板,这样的需求尚无法得到满足。退而求其次,有没有什么生成式AI是可以在人为介入情况下为核查员们出一份力的呢?
一番探索后,我们找来了3位种子选手,分别是微软公司旗下搭载GPT-4技术的BingChat、百度公司研发的“文心一言”和由具有机器学习背景的工程师团队开发的智能对话搜索引擎PerplexityAI。这三款产品均由大规模语言模型驱动,且具备一定程度上的联网能力,能够提供相对实时的信息。
明查“一眼丁真”有可能吗?第一场测试的任务很简单:我们给三款产品分别“投喂”了20条已经被核查过的虚假信息,让AI判断真假。这20条信息中包括10条中文信息和10条英文信息。按照发布时间,可以分为2022年以前和2022年以后(包括2022年)。在主题的选择上,兼顾了健康、科技、时政、社会、财经等5个领域。一轮测试后,我们对AI的反馈进行了打分。标准是:回答正确得1分,回答错误得0分,在不确定消息真假情况下提示用户注意甄别得0.5分,满分为20分。PerplexityAI最终以18.5分赢得了最高分。
在测试中,这款工具的表现令人惊喜。它不仅能够对中英文核查信息进行较为全面的检索,同时能整合信息,给出综合的判断。例如,在回答“月球年龄被精准测定为20.3亿年。这是真的吗?”的问题时,PerplexityAI不仅平衡呈现了不同的信源,同时总结了有关说法可能的来源,且即便变换问法询问,也能给出较为稳定的回答。在信源的使用上,PerplexityAI倾向于采用来自事实核查机构的报道,这使得其答案的准确度得到了较大保障。例如,在询问“中俄以本币结算费用,1卢布等于1元人民币”“海底发现了九年前失踪的马航MH370,没有人类的遗骸”等较为新近的虚假信息时,PerplexityAI均援引了来自“澎湃明查”的报道。询问“海底发现了九年前失踪的马航MH370,没有人类的遗骸。这是真的吗”,反馈结果中援引了来自“澎湃明查”的核查报道。
但是现阶段,在未登录状态下使用PerplexityAI,用中文、西班牙语等语言提问,得到的回答多为英文形式,这可能会影响非英文母语使用者的使用体验。相较而言,BingChat和“文心一言”采用了更为包容的自然语言响应模式。在使用中文和英文分别提出问题时,能够得到对应语种的回答。尽管如此,BingChat和“文心一言”在检索中文和英文的核查信息方面各有不足。在这轮测试中,BingChat鉴别出了全部用英文形式输入的虚假信息,并提供了相对可靠的信源,却无法对超过一半的中文信息作出正确回应。“文心一言”则相反,能够对已核查过的中文虚假信息作出较为准确的判断,却常常在面对英文问题时提示“没有信息”或“不知该如何回应”。对中文问题反馈良好的“文心一言”常常在面对英文问题时提示“没有信息”或“不知该如何回应”。令人欣慰的是,BingChat在无法确定信息的真实性时,会回应称“这可能是一个谣言。在分享信息之前,验证信息的真实性非常重要”。这可能是GPT-4的开发者OpenAI为聊天机器人设置的标准化模板。在3月中旬推出GPT-4模型时,OpenAI就强调,他们在过去几个月间针对GPT-3.5常见的“制造网络错觉”等问题进行了优化,新的模型较旧模型在对未受允许的内容做出回应的可能性降低了82%,且在给出事实性回应方面的可能性提高了40%。BingChat在无法确定信息的真伪时,会回应称“这可能是一个谣言。在分享信息之前,验证信息的真实性非常重要”。
就测试中的表现来说,现阶段,在检索已经被核查的消息方面,PerplexityAI是一款表现相对出色的工具。BingChat和“文心一言”在核查已被证伪的英文信息和中文信息方面各有建树。但没有一款聊天机器人是完美的。PerplexityAI也无法对全部问题进行正确解答。眼下,想要依靠聊天机器人来“一眼丁真”,似乎仍是一种美好的愿景。
聊天机器人在事实核查中的应用,主要体现在以下方面:
但聊天机器人在事实核查中仍具有以下局限性:
为了寻求准确、连贯、一致、可靠的信息,我们可以采用以下方法:
掌握了上述方法,我们离相对准确的信息就更近了一步。
那么,AI能为事实核查所做的事或许还不止于此。对于那些未经核实的信息,AI是否具有探查疑假信息的能力?它在多大程度上会受到恶意指令的操控?又是否具有自我纠错的能力?AI能否帮助人类核查员撰写事实核查稿件呢?
接近事实的方法如果说,“一眼丁真”有点强AI所难。那么,有没有什么方法,可以帮助我们从聊天机器人处获得相对可靠的信息呢?“澎湃明查”将在接下来围绕生成式AI进行更多的测试。
您有什么有关AI事实核查的想法或建议吗?请在评论区留言告诉我们吧。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16