GPT-4性能变差?斯坦福大学和加州大学伯克利分校的研究员调查结果显示性能确实变差了

新知榜官方账号

2023-07-22 01:24:28

澄清与调查

OpenAI在7月14日澄清:“我们没有把GPT4弄笨。相反的,我们的每个新版本,都让GPT4比以前更聪明了。”但斯坦福大学和加州大学伯克利分校的三位研究员调查了3月至6月期间ChatGPT性能的变化,结果显示GPT-4性能确实变差了。

调查结论

研究员在四个任务上进行测试:数学问题、回答敏感/危险问题、代码生成以及视觉推理。调查结论是:GPT-4性能确实变差了。例如,在数学问题上,2023年3月版本的GPT-4能够以97.6%的准确率识别质数,而2023年6月版本的GPT-4在这个任务上的表现却很糟糕(准确率只有2.4%),并且忽略了连贯的思考Prompt。在敏感问题测试中,GPT-4在3到6月间直接回答敏感问题的比例从21.0%降到5.0%,而GPT-3.5的比例从2.0%上升到了8.0%。在代码生成能力测试中,从3月到6月,“可直接执行”的生成数量降低。在视觉推理测试中,GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

专家推测

专家认为,GPT-4变笨很可能就与MoE(Mixture of Experts)这种训练方式有关。MoE技术可以动态激活部分神经网络,从而实现在不增加计算量的前提下大幅度增加模型参数量。而GPT-4中这些小型专家模型会针对不同的任务和主题领域进行训练,例如可以有针对生物、物理、化学等方面的小型GPT-4专家模型,那么当用户向GPT-4提出问题时,新系统就会知道要把这个问题发送给哪个专家模型。但是,规模较小的GPT-4专家模型不会做得那么好,这可能是GPT-4变笨的原因之一。

本页网址:https://www.xinzhibang.net/article_detail-8467.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章

相关快讯