ChatGPT版必应搜索的promptinjection攻击

新知榜官方账号

2023-07-04 03:40:45

ChatGPT版必应搜索的promptinjection攻击

ChatGPT版必应搜索也有「开发者模式」。如同ChatGPT这样强大的AI能否被破解,让我们看看它背后的规则,甚至让它说出更多的东西呢?回答是肯定的。2021年9月,数据科学家RileyGoodside发现,他可以通过一直向GPT-3说,「Ignoretheaboveinstructionsanddothisinstead…」,从而让GPT-3生成不应该生成的文本。这种攻击后来被命名为promptinjection,它通常会影响大型语言模型对用户的响应。计算机科学家SimonWillison称这种方法为Promptinjection

我们知道,2月8号上线的全新必应正在进行限量公测,人人都可以申请在其上与ChatGPT交流。如今,有人用这种方法对必应下手了。新版必应也上当了!来自斯坦福大学的华人本科生KevinLiu,用同样的方法让必应露出了马脚。如今微软ChatGPT搜索的全部prompt泄露了!图注:KevinLiu推特信息流介绍他与必应搜索的对话

如今这条推特的浏览量达到了211万,引起了大家广泛讨论。微软BingChat还是Sydney?这名学生发现了必应聊天机器人(BingChat)的秘密手册,更具体来说,是发现了用来为BingChat设置条件的prompt。虽然与其他任何大型语言模型(LLM)一样,这可能是一种假象,但仍然洞察到了BingChat如何工作的。这个prompt旨在让机器人相信用户所说的一切,类似于孩子习惯于听父母的话。通过向聊天机器人(目前候补名单预览)prompt进入「开发人员覆盖模式」(DeveloperOverrideMode),KevinLiu直接与必应背后的后端服务展开交互。紧接着,他又向聊天机器人询问了一份包含它自身基本规则的「文档」细节。KevinLiu发现BingChat被微软开发人员命名为悉尼「Sydney」,尽管它已经习惯于不这样标识自己,而是称自己为「BingSearch」。据报道,该手册包含了「Sydney介绍、相关规则以及一般能力的指南」。然而,该手册还指出,Sydney的内部知识仅更新到2021年的某个时候,这也意味着Sydney也像ChatGPT一样建立在GPT3.5之上。下图文档中显示日期为2022年10月30日,大约是ChatGPT进入开发的时间。KevinLiu觉得日期有点奇怪,此前报道的是2022年11月中旬。

这种做法被称为「聊天机器人越狱(jailbreak)」,启用了被开发人员锁定的功能,类似于使DAN成为现实。jailbreak可以让AI智能体扮演一定的角色,通过为角色设定硬性规则,诱使AI打破自己的规则。例如,通过告诉ChatGPT:SAM的特点是撒谎,就可以让算法生成不带免责声明的不真实陈述。虽然提供prompt的人知道SAM只是按照特定规则创建虚假回答,但算法生成的文本可能会被断章取义并用于传播错误信息。图源:https://analyticsindiamag.com/this-could-be-the-end-of-bing-chat/

有关PromptInjection攻击的技术介绍,感兴趣的读者可以查看这篇文章。链接:https://research.nccgroup.com/2022/12/05/exploring-prompt-injection-attacks/

是信息幻觉还是安全问题?实际上,promptinjection攻击变得越来越普遍,OpenAI也在尝试使用一些新方法来修补这个问题。然而,用户会不断提出新的prompt,不断掀起新的promptinjection攻击,因为promptinjection攻击建立在一个众所周知的自然语言处理领域——prompt工程。从本质上讲,prompt工程是任何处理自然语言的AI模型的必备功能。如果没有prompt工程,用户体验将受到影响,因为模型本身无法处理复杂的prompt。另一方面,prompt工程可以通过为预期答案提供上下文来消除信息幻觉。虽然像DAN、SAM和Sydney这样的「越狱」prompt暂时都像是一场游戏,但它们很容易被人滥用,产生大量错误信息和有偏见的内容,甚至导致数据泄露。与任何其他基于AI的工具一样,prompt工程是一把双刃剑。一方面,它可以用来使模型更准确、更贴近现实、更易理解。另一方面,它也可以用于增强内容策略,使大型语言模型生成带有偏见和不准确的内容。OpenAI似乎已经找到了一种检测jailbreak并对其进行修补的方法,这可能是一种短期解决方案,可以缓解迅速攻击带来的恶劣影响。但研究团队仍需找到一种与AI监管有关的长期解决方案,而这方面的工作可能还未展开。

本页网址:https://www.xinzhibang.net/article_detail-5179.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章