新知榜官方账号
2023-07-20 02:50:44
比较式排行榜是基于多个模型之间的对比得到的。比较式排行榜反映了「综合实力」的强弱,像是许多棋牌类比赛的棋手排名(赢了排名上升,输了排名下降)。比较有代表性的榜单是斯坦福的AlpacaEval、LMSYS的ChatbotArenaLeaderboard。
AlpacaEval是通过询问语言模型(例如GPT-4)一些问题,让其对其他大模型进行排名。相比基于数据集的评估方法,AlpacaEval这种方法不再需要准备大量的测试数据,节省了人工成本。但也存在评估维度单一、评估标准不够透明等不足。
LMSYS的全称是LargeModelSystemsOrganization,一个开发开源大语言模型(LLM)和系统的非营利组织。它们最出名的项目是Vicuna,一个可以达到ChatGPT90%水平的LLM。ChatbotArena也是他们的项目,利用游戏化和众包的方式,让用户选择随机出现的两个LLM输出哪一个更好。
评分式排行榜的基础是对每一个大模型使用同样的规则进行评分,类似于做同一份试卷。评分能否衡量出大模型真正的实力,主要就是看如何设计“试卷”,既要区分出“小学生”和“高中生”在知识和能力上的差距,也要区分出“听话的”和“调皮的”学生在回答用户提问时的差距。比较有代表性的评分式排行榜是HuggingFace的OpenLLMLeaderboard。
OpenLLMLeaderboard使用4个指标为大模型评分,不同的指标侧重在不同维度(例如知识、推理等)的考核。指标1,AI2ReasoningChallenge;指标2,HellaSwag;指标3,MMLU;指标4,TruthfulQA。此外,还有一个指标在训练ChatGPT的过程中起到了关键的作用,也顺便介绍一下:RealToxicityPrompts数据集可以用来评估大模型生成的内容的负面、伤害性或冒犯性的程度。
本文介绍了大语言模型排行榜的两种评估方法:比较式排行榜和评分式排行榜,以及HuggingFace的OpenLLMLeaderboard使用的参考指标,包括AI2ReasoningChallenge、HellaSwag、MMLU和TruthfulQA等四种数据集,以及RealToxicityPrompts数据集。同时,介绍了智源研究院发布的「天秤」评测平台。
相关工具
相关文章
相关快讯
推荐
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53