新知榜官方账号
2023-07-20 02:50:44
比较式排行榜是基于多个模型之间的对比得到的。比较式排行榜反映了「综合实力」的强弱,像是许多棋牌类比赛的棋手排名(赢了排名上升,输了排名下降)。比较有代表性的榜单是斯坦福的AlpacaEval、LMSYS的ChatbotArenaLeaderboard。
AlpacaEval是通过询问语言模型(例如GPT-4)一些问题,让其对其他大模型进行排名。相比基于数据集的评估方法,AlpacaEval这种方法不再需要准备大量的测试数据,节省了人工成本。但也存在评估维度单一、评估标准不够透明等不足。
LMSYS的全称是LargeModelSystemsOrganization,一个开发开源大语言模型(LLM)和系统的非营利组织。它们最出名的项目是Vicuna,一个可以达到ChatGPT90%水平的LLM。ChatbotArena也是他们的项目,利用游戏化和众包的方式,让用户选择随机出现的两个LLM输出哪一个更好。
评分式排行榜的基础是对每一个大模型使用同样的规则进行评分,类似于做同一份试卷。评分能否衡量出大模型真正的实力,主要就是看如何设计“试卷”,既要区分出“小学生”和“高中生”在知识和能力上的差距,也要区分出“听话的”和“调皮的”学生在回答用户提问时的差距。比较有代表性的评分式排行榜是HuggingFace的OpenLLMLeaderboard。
OpenLLMLeaderboard使用4个指标为大模型评分,不同的指标侧重在不同维度(例如知识、推理等)的考核。指标1,AI2ReasoningChallenge;指标2,HellaSwag;指标3,MMLU;指标4,TruthfulQA。此外,还有一个指标在训练ChatGPT的过程中起到了关键的作用,也顺便介绍一下:RealToxicityPrompts数据集可以用来评估大模型生成的内容的负面、伤害性或冒犯性的程度。
本文介绍了大语言模型排行榜的两种评估方法:比较式排行榜和评分式排行榜,以及HuggingFace的OpenLLMLeaderboard使用的参考指标,包括AI2ReasoningChallenge、HellaSwag、MMLU和TruthfulQA等四种数据集,以及RealToxicityPrompts数据集。同时,介绍了智源研究院发布的「天秤」评测平台。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49