新知榜官方账号
2023-07-28 01:23:08
在Twitter和OpenAI的在线开发者论坛的评论中,用户们表达了对GPT-4变笨性能下降的不满,例如GPT-4的逻辑能力减弱、错误回答增多、对提供的信息失去追踪能力……许多用户发现,GPT-4回复“对不起,我无法回答”的次数越来越多。
有网友甚至把3小时25条消息额度一口气用完,也没有解决问题,无奈切换到GPT-3.5,反倒解决了。用户称这个模型与其几个月前的版本,在推理能力和其他输出上都变得懒惰和愚笨。针对GPT-4变笨问题,网友给出了不同的判断和分析。有传言表明,OpenAI可能正在使用更小、更专门的GPT-4模型来更高效地处理用户查询,并根据成本和速度考虑将查询发送给哪个模型。
Keras创始人FrançoisChollet在6月份的推特中表示:“我对这个说法非常怀疑。很有可能模型性能与2月份相比差不多甚至表现得更好。但人们已经花了大量时间与其互动,并且对它能做什么不能做什么有了更现实的期望——它已经失去了最初的神秘感。”Keras创始人的看法HackerNews上也有网友持此类观点:“我认为,我们没有注意到我们的期望已经提高了,也没有注意到我们记住了成功的部分,进而期待所有都是成功的。一开始我们没有注意到失败,因为这和预期相符合,我们特别注意到了成功,因为这些是意料之外的。现在我们注意到了失败,并期待成功。”
部分人认为,当最初的惊艳期过去,大家对AI回答问题的能力期待变高了,关注点发生了变化,对GPT失误有了更高敏感度,因此会认为GPT-4变笨了。ChatGPT于2022年11月发布后,上线5天后已有100万用户,上线两个月后已有上亿用户。最初ChatGPT运行在GPT-3和GPT-3.5之上。3月中旬,GPT-4发布,并迅速成为开发者和其他科技行业人士的首选模型。OpenAI声称模型从2023年3月就没有改动过,公开层面确实没有相关记录。ChatGPT的更新日志中,分别在1月9日、1月30日、2月13日提到了对模型本身的更新,涉及改进事实准确性和数学能力等。但自从3月14日GPT-4发布之后就没提到模型更新了,只有网页APP功能调整和添加联网模式、插件模式、苹果APP等方面的变化。
关于大量用户反馈GPT-4大模型的回答质量下降问题,OpenAI于7月14日澄清:“我们没有把GPT-4弄笨。相反,我们让GPT-4的每个新版本都比之前更聪明了。”OpenAI于7月14日的回应为了验证OpenAI的说法,斯坦福大学和加利福尼亚大学伯克利分校的研究者,针对ChatGPT行为随时间发生的变化,调查了2023年3月至6月期间ChatGPT性能的变化。该论文评估了GPT-3.5和GPT-4的三月版和六月版的表现。论文链接:https://arxiv.org/pdf/2307.09009.pdf
评估基于四大任务:1)求解数学问题2)回答敏感/危险问题3)生成代码4)视觉推理
论文图片调查结论是:GPT-4性能确实变差了。例如:GPT-4一步步思考并回答“17077是质数吗”这个数学问题,准确率直接从97.6%降到了2.4%,而GPT-3.5的准确率则从7.4%上升到86.8%。此外,GPT-4的回答更简洁,GPT-3.5的回答则更长。论文概要提到:“相同”的LLM服务的行为可以在相对短的时间内发生显著变化,突显了对LLM质量的持续监控的必要性。
OpenAI开发者推广大使LoganKilpatrick于7月19日在推特回应:“向所有分享GPT-4模型性能体验的人表示感谢,@OpenAI的所有人都希望推出最好的模型,帮助用户更多地投入到他们感兴趣的事情上。我们正在积极调查大家分享的报告。”OpenAI于7月19日的回应同时他也表示,自3月14日发布GPT-4以来,大模型的本体一直处于静态,不存在大量外部数据污染模型的情况。他也承认由于大模型本身存在不稳定性,对于某些提示词的表现不一致。对如此科学实验下的证据,OpenAI在博客“FunctioncallingandotherAPIupdates”中更新回应到:“确实在某些任务上的性能变差了。”
目前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐——也就更听从人类指示和符合人类价值观——但也让其自身的推理等能力变差。因为大语言模型有时会输出有毒内容,产生幻觉,从而带来的社会偏见问题。OpenAI公司十分关注安全问题,并对此做了大量的对齐工作。这也使得后续版本在安全性上有所提升,在推理能力上变得越来越糟糕。与人类的价值观对齐、同时不降低AI自身能力上限的训练方法,也成了现在很多团队的研究方向,但还在起步阶段。
以下是改善ChatGPT体验的几种方法:提升prompt提示技能和写作技能;ChatGPT反应缓慢或无响应时,使用Claude或BingChat等替代方法。关于ChatGPT性能降低的笑话(挺真实)
参考资料
https://twitter.com/fchollet/status/1664036777416597505
https://twitter.com/OfficialLoganK/status/1681658410507354113
https://twitter.com/npew/status/1679538687854661637
https://openai.com/blog/function-calling-and-other-api-updates
https://arxiv.org/pdf/2307.09009.pdf
本文来自微信公众号“凯莉彭”(ID:kai-li-peng),作者:凯莉彭,36氪经授权发布。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49