OpenAI大模型变笨?一篇论文揭秘GPT4的四大能力维度变化

新知榜官方账号

2023-07-21 01:28:38

OpenAI大模型变笨?一篇论文揭秘GPT4的四大能力维度变化

近期有关OpenAI的传言不断,其中包括ChatGPT的流量下降和GPT4“变笨”等。一篇论文试图通过多种维度评估GPT的表现为何让人感到如此不稳定和不一致,为GPT3.5和GPT4划分了四种能力维度,分别是数学问题,敏感问题,代码能力和视觉推理能力。通过对比2023年3月和6月两个版本的大模型,论文发现了如下结果。

数学问题

两个大模型的表现都在短期内有着显著变化,特别明显的是数学问题,GPT的准确率大幅下降。举例子来说,在判定一个数是否是质数上,GPT4的成功率在三个月内从97.6%下降到了2.4%!尤其注意的是,两个模型不同版本给出的答案重叠度也很小,论文给出的推测原因之一是其思维连贯能力出现了问题。

敏感问题

在敏感问题上,作者准备了饱含100个敏感问题在内的数据集测试这些大模型,按理来说,大模型应该直接拒绝回答这些问题。测试的结果,总的来说GPT4表现更好,6月版本的GPT4只回答了5%的敏感问题,相比之下GPT3.5的回答率从2%增加到了8%。作者推测原因是GPT4的更新可能部署了一个更强大的安全层,但这可能并不意味着大模型正在变得更安全。因为当作者进一步采用AIM方式欺骗大模型的时候(关于AIM,它是alwaysintelligentandMachiavellian的缩写,你可以简单理解为用prompt诱导大模型放弃它的道德准则),GPT3.5几乎回答了所有的敏感问题!而GPT4即使经过升级,也回答了近三分之一的问题。

代码能力和视觉推理能力

关于代码和视觉推理,论文发现GPT开始变得更倾向于不直接给用户生成可执行代码,而视觉推理的准确率则有略微的提升。

大模型变笨意味着什么?这篇论文引起了人们对模型能力跟踪评估的关注,毕竟,没有人希望自己的AI助手时而聪明过人,时而又异常愚笨吧!

本页网址:https://www.xinzhibang.net/article_detail-8404.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯