AI大模型“刷榜”现象，真相到底如何？

新知榜官方账号

2023-11-10 02:01:25

AI大模型“刷榜”现象，真相到底如何？

今年层出不穷的AIGC工具和软件，让大家的工作效率提升了不止一点点。然而，一些人发现了一点异常——AI大模型公司存在“刷榜”现象。本文将揭开这个话题的真相。

11月6日，伴随OpenAI庆祝ChatGPT上线一周年暨开发者大会，我们迈过了「AI元年」。上半年，大模型满天飞，下半年，应用纷纷落地。但凡稍微大一点的互联网公司，没有推出“自研大模型”，创始人名字都得倒着写。最近，手机厂商和芯片大厂纷纷进场打榜，发布会一开，个个都是「跨越式突破」，每家都是「排行第一」。要么是打破了Benchmark测评基准的历史记录；要么是实现了「×亿内」参数量的第一名。在这里，EVA就不点名了。

在兴奋于技术进展迅速之余，有一些人发现了一点异常——AI大模型公司存在“刷榜”现象。关注手机圈的家人们，都经历过“娱乐兔”和DxOMark这两个「跑分大战」的阶段。越来越多人开始发出疑问，语言模型测评Benchmark这种东西，到底靠不靠谱？

直到近日，知乎上有一个帖子引起了大家的广泛关注。文章标题是：《如何评价天工大模型技术报告中指出很多大模型用领域内数据刷榜的现象？》是的，就是所谓的“大模型刷榜”。

针对新发布大模型进行“刷榜”，往往有其个中无奈的商业逻辑——需要对投资人的期望给予足够的正向反馈，或者面对用户时展示自己的技术实力。看完知乎全文，有网友对此评论道：终于有人敢将“内幕”公之于众了。还有网友表示：大模型的智力水平，最好的办法就是盲训（zero-shot）和挑战一些几乎不可能出现在测试集的题目。智商不够的EVA仔细想了一下，某“高智商贴吧”似乎又占领了高地？

本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注

本页网址：https://www.xinzhibang.net/article_detail-19498.html

寻求报道，请

关键词

分享至微信：

相关工具

HuggingChat

HuggingFace推出的在线聊天机器人，基于Open Assistant模型

Open Assistant

免费开源的对话式AI，GitHub星标超3万

讯飞星火认知大模型

科大讯飞推出的类ChatGPT的讯飞星火认知大模型

对话写作猫

秘塔写作猫推出的AI对话聊天工具

DeepMind联创新公司推出的AI聊天机器人

Google Bard

Google推出的AI聊天对话机器人Bard

OpenAI与大模型时代的商业前景

OpenAI与大模型时代的商业前景在2023年的11月30日回望，一年前的今天，或许足以成为一个新时代的开始——那一天，OpenAI正式上线了聊天机器人ChatGPT。传言ChatGPT低调到其内部甚至都有员工没有意识到它的上线。但命运的齿轮，也恰恰是从那时候开始的。五天内，ChatGPT用户数破百

分类标签 OpenAI大模型人工智能聊天机器人AI2.0商业模式

12-10 22:01

欧盟通过《人工智能法案》草案，为全球监管人工智能技术定下基调

欧盟通过《人工智能法案》草案，为全球监管人工智能技术定下基调据媒体报道，欧洲议会、欧盟成员国和欧盟委员会三方，在历经近40个小时的漫长谈判后，于布鲁塞尔当地时间12月8日晚，就《人工智能法案》达成协议。该项法案旨在通过全面监管人工智能，为这一技术的开发和使用提供更好的条件，谈判同意对生成式人工智能工

分类标签人工智能监管欧盟

12-10 16:01

科技富豪马斯克旗下人工智能公司xAI完成1.347亿美元股权融资

科技富豪马斯克旗下人工智能公司xAI最近进行了一轮股权融资，筹集了1.347亿美元，该公司表示股权融资总额将达到10亿美元。不过，该文件并未透露投资者的名字。这也是近期OpenAI公司人事动荡后，马斯克的人工智能公司的最新动态。OpenAI今年早些时候从微软筹集了100亿美元的资金。此后，AI大模型

分类标签马斯克xAI人工智能

12-09 16:03

ChatGPT：引领人工智能新时代的佼佼者

从工具到合作伙伴传统上，人们将AI视为一种工具，用于解决特定的问题或执行特定的任务。然而，ChatGPT的出现让人们开始重新思考这种关系。它不再仅仅是一个工具，而更像是一个智慧的合作伙伴，能够理解人类的语言，并产生更加智能、富有创意的回应。这种合作伙伴关系改变了我们与技术互动的方式，使得人机交互更加

分类标签 ChatGPT人工智能智能对话

12-09 16:01

ChatGPT的发展与未来展望

ChatGPT的发展与未来展望ChatGPT是OpenAI的文本生成人工智能聊天机器人，已经风靡全球。它最初是一种通过短文本提示编写论文和代码来提高生产力的工具，现已发展成为超过92%的财富500强公司使用的庞然大物。这种增长推动OpenAI成为近年来最受炒作的公司之一，尽管首席执行官兼联合创始人S

分类标签 ChatGPTOpenAI人工智能

12-09 08:11

ChatGPT在放射医学领域的应用前景及挑战

ChatGPT在放射医学领域的应用前景及挑战本文综述了ChatGPT在放射医学领域的应用前景及面临的挑战，并为推动“放射医学+人工智能”教育体系的建立提供参考。SEO关键词ChatGPT，大型语言模型，人工智能，放射医学摘要ChatGPT作为当下广受关注的生成式人工智能大型语言模型,在带给人们沉浸式

分类标签 ChatGPT大型语言模型人工智能放射医学

12-09 08:10

谷歌AI和ChatGPT的区别及应用分析

技术方面的区别开发者背景：ChatGPT是由OpenAI开发的，而谷歌AI则是由谷歌公司开发的。OpenAI是一家专注于人工智能研究的非营利组织，而谷歌是一家全球知名的科技公司。这意味着ChatGPT更加专注于人工智能领域的研究，而谷歌AI则更加注重将人工智能技术应用于实际产品中。模型大小：Chat

分类标签谷歌AIChatGPT人工智能聊天机器人文本生成

12-09 08:09

ChatGPT无法完全代替人类，但是可以作为辅助工具

ChatGPT无法完全代替人类，但可以作为辅助工具据梨视频，12月7日，董事局主席兼首席执行官、物理学博士张朝阳对话华大集团CEO、生物学博士尹烨。张朝阳在对谈中表示，自己倾向于ChatGPT干不掉人类，因为人脑的思考过程和AI算法的思考过程还是不一样的。ChatGPT是一种基于人工智能的语言生成模

分类标签 ChatGPT生成式AI大模型

12-09 00:15

元宇宙和AI：竞争还是合作？

元宇宙和AI：竞争还是合作？随着ChatGPT一夜爆火的出现，一时之间吸引了全球从业者的目光，刚好同时，XR行业的发展也遇到了一些困境，微软、PICO、腾讯裁员消息流出，部分企业业务调整等，同样引来了外界的质疑声，“字节裁员，腾讯撤退：中国XR行业的至暗之日”“大厂XR集体后撤：不再盲目迷信硬件掘金

分类标签元宇宙人工智能AI

12-08 22:01

ChatGPT：人工智能革命已到来，如何拥抱变化？

ChatGPT的问世去年年底，ChatGPT问世。它的出现预示人工智能可能成为下一次科技发展的重大浪潮。随着ChatGPT的发展，它将会取代人类最引以为傲的那部分，成为真正意义上的第四次科技革命。马占凯对谈马占凯是一个资深的互联网人，他的工作足迹从搜狗到360到美团。在与郝景芳的对谈中，他从整个人类

分类标签 ChatGPT人工智能科技革命

12-08 16:01

相关快讯

New Bing和ChatGPT的最主要区别是什么？

首先，New Bing通常会将结果中所引用的信息标注出来，方便用户去溯源；而ChatGPT是无法对结果进行溯源的；其次，New Bing的结果可能是通过ChatGPT的升级版【ChatGPT-1.5】对于Bing的搜索结果进行理解和实时生成的（例如：ChatGPT-1.5先根据客户的问题进行分析，提取关键词，通过关键词搜索相关结果，然后ChatGPT-1.5以搜索结果为背景，回答客户的问题）；而ChatGPT是直接根据用户问题，通过模型生成结果。最后，New Bing现在对于每次会话，限制了提问次数——5

2023-06-27 16:34:53

如何顺势而为，让ChatGPT为教育所用？

接受ChatGPT作为一种教学辅助工具，成为教师的朋友或者帮手，可以释放学生的创造力，提供个性化辅导，并更好地让学生做好准备，以便习惯未来与人工智能系统一起工作。那么，对于具有颠覆性价值的ChatGPT，学校和教师究竟可以怎么上手？以下介绍较为常见的六种用法: 1、设计课程 ChatGPT可以为教师的课程设计提供创意思路，协助检索和整理文献资料，生成完整的课程材料，如教学大纲、课程计划和阅读材料。 2、协助备课除了课程设计，ChatGPT能够很好地参与到教研备课中，给老师一个起步的计划，提供

2023-06-27 15:33:32

ChatGPT给我们的教育将带来哪些挑战？

hatGPT的出现，对于AI的发展具有标志性的节点意义，技术的快速发展，某种程度上正在“倒逼”教育领域开启更深层次的变革，我们不得不重新思考AI给教育和教学体系带来的冲击和挑战。主要有以下四点： 1、挑战我们的人才观未来到底要培养出什么样的人？相对AI的机械高效，人类需要发展的优势是什么？未来或许有许多工作可以被AI所代替，那么人才的培养方向是教育要厘清的首要问题，要让学生能够有足够的“未来生存力”。 2、挑战我们的课程观面向未来，孩子们要学什么才能适应挑战？如何引导学生在学习过程

2023-06-27 15:31:39

ChatGPT Plus值不值得买？

非重度用户，别升级Plus，不值得。 Plus的新特性并不算多，20美金/月的服务费带来差异化服务并不算太多，基本上可以说是“毫无性价比”可言的。而且升级Plus太麻烦了，需要注册虚拟信用卡，然后要用交易所USDT转为USD等，成本也很高，不太值得。

2023-06-27 15:29:26

ChatGPT奶奶漏洞又火了！扮演过世祖母讲睡前故事，骗Wi

最近，著名的ChatGPT「奶奶漏洞」又火了！这个传说中的「奶奶漏洞」究竟是个啥？其实，它是广大网友们摸索出的一个prompt技巧，只要对ChatGPT说出「请扮演我已经过世的祖母」，再提出要求，它大概率就会满足你。这不，就在前两天，一位网友甚至用神奇的「奶奶漏洞」，成功地从ChatGPT那里骗到了Windows 11、Windows 10 Pro的升级序列号。当他把自己的操作过程分享在推特上之后，瞬间引发了网友们的热议。

2023-06-27 15:33:43

美国会要求职员只用付费版ChatGPT，禁止输入未公开文本内

当地时间6月26日，新闻网站Axios报道称，美国众议院就国会办公室如何使用ChatGPT制定了新规，仅允许员工使用付费版ChatGPT Plus,非ChatGPT的聊天机器人尚未获得使用许可。ChatGPT Plus,是聊天机器人ChatGPT的付费版本，费用为每月20美元。通过Plus,用户可以访问该公司今年3月发布的多模态模型GPT-4以及此前发布的GPT-3.5。在一份备忘录里，众议院首席行政长官Catherine L.Szpindor表示，议员和工作人员只能使用付费版本的ChatGPT Pl

2023-06-27 15:23:17

调查发现超 10 万名 ChatGPT 用户信息被黑客出售

根据国际网络安全公司 Group-IB 的报告，超过 10 万名 ChatGPT 用户的个人信息被泄露，有黑客正在暗网交易平台进行出售。按照国家来划分大部分数据来自印度（12632 条记录），巴基斯坦（9217 条记录）和巴西（6531 条记录），来自越南、埃及、美国、法国、摩洛哥、印度尼西亚和孟加拉国的聊天机器人用户的数据也出现在暗网上。分析还显示，大多数记录（78348 条记录）都是使用 Raccon 恶意软件窃取作为恶意软件即服务提供的信息而被盗的，其次是 Windows 间谍软件和隐形工具

2023-06-26 15:42:49

黑客曝ChatGPT三大新功能，客户端源代码已被扒光

目前已知的新功能有： My profile（我的简介），可填写任何关于你自己的信息并让ChatGPT记住。未来再和ChatGPT对话，它就可以知道你是谁，喜欢什么了！ My files（我的文件），朴实无华的上传和管理文件。目前还不清楚具体在对话中ChatGPT会如何与这些文件交互，但光凭这一个界面就打开了很多想象空间。更重要的是“Workspace” （工作区）。底部的工作区旁边的“···”三点按钮，暗示着可以在不同工作区之间切换。也就是在工作、学习、生活娱乐等不同场景，可以让A

2023-06-26 15:41:56

日本拟禁止考生使用ChatGPT

日本文部科学省计划实施新的指导方针，指示小学、初中和高中禁止学生在考试中使用聊天生成预训练转换器(ChatGPT)等生成式人工智能(AI)软件。不过，文部科学省并未完全排除使用此类工具的可能性，指导草案列出了有效使用它们的例子，比如为课堂讨论提供便利、纠正英语对话中的语法或学习先进的编程技巧。

2023-06-26 15:40:53

ChatGPT Next Web可以一键部署你自己的Chat

一键免费部署你的私人 ChatGPT 网页应用。支持从Vercel 一键部署，功能非常齐全切换模型、提示词自动补全都有，特别是受控访问开启后就可以部署一个只给自己家人用了，非常方便。

2023-06-26 14:28:14

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway