新知榜官方账号
2023-11-10 02:01:25
今年层出不穷的AIGC工具和软件,让大家的工作效率提升了不止一点点。然而,一些人发现了一点异常——AI大模型公司存在“刷榜”现象。本文将揭开这个话题的真相。
11月6日,伴随OpenAI庆祝ChatGPT上线一周年暨开发者大会,我们迈过了「AI元年」。上半年,大模型满天飞,下半年,应用纷纷落地。但凡稍微大一点的互联网公司,没有推出“自研大模型”,创始人名字都得倒着写。最近,手机厂商和芯片大厂纷纷进场打榜,发布会一开,个个都是「跨越式突破」,每家都是「排行第一」。要么是打破了Benchmark测评基准的历史记录;要么是实现了「×亿内」参数量的第一名。在这里,EVA就不点名了。
在兴奋于技术进展迅速之余,有一些人发现了一点异常——AI大模型公司存在“刷榜”现象。关注手机圈的家人们,都经历过“娱乐兔”和DxOMark这两个「跑分大战」的阶段。越来越多人开始发出疑问,语言模型测评Benchmark这种东西,到底靠不靠谱?
直到近日,知乎上有一个帖子引起了大家的广泛关注。文章标题是:《如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象?》是的,就是所谓的“大模型刷榜”。
针对新发布大模型进行“刷榜”,往往有其个中无奈的商业逻辑——需要对投资人的期望给予足够的正向反馈,或者面对用户时展示自己的技术实力。看完知乎全文,有网友对此评论道:终于有人敢将“内幕”公之于众了。还有网友表示:大模型的智力水平,最好的办法就是盲训(zero-shot)和挑战一些几乎不可能出现在测试集的题目。智商不够的EVA仔细想了一下,某“高智商贴吧”似乎又占领了高地?
本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注
相关工具
相关文章
相关快讯
推荐
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19