新知榜官方账号
2023-12-08 16:22:35
从开源热度和快速应用角度以及国内环境,入门级LLM模型可选:ChatGLM-6B,ChatGLM2-6B,Baichuan-13B,InternLM-Chat-7B。高级的商用,可选GPT/GLM等基座模型自行预训练和精调或者使用平台级公司开放的大模型API。性能评测结果如下表所示:
数据集/模型 | InternLM-Chat-7B | ChatGLM2-6B | Baichuan-7B | LLaMA-7B | Alpaca-7B | Vicuna-7B |
---|---|---|---|---|---|---|
C-Eval(Val) | 53.2 | 50.9 | 42.7 | 24.2 | 28.9 | 31.2 |
MMLU | 50.8 | 46.0 | 41.5 | 35.2* | 39.7 | 47.3 |
AGIEval | 42.5 | 39.0 | 24.6 | 20.8 | 24.1 | 26.4 |
CommonSenseQA | 75.2 | 60.0 | 58.8 | 65.0 | 68.7 | 66.7 |
BUSTM | 74.3 | 55.0 | 51.3 | 48.5 | 48.8 | 62.5 |
CLUEWSC | 78.6 | 59.8 | 52.8 | 50.3 | 50.3 | 52.2 |
MATH | 6.4 | 6.6 | 3.0 | 2.8 | 2.2 | 2.8 |
GSM8K | 34.5 | 29.2 | 9.7 | 10.1 | 6.0 | 15.3 |
HumanEval | 14.0 | 9.2 | 9.2 | 14.0 | 9.2 | 11.0 |
RACE(High) | 76.3 | 66.3 | 28.1 | 46.9* | 40.7 | 54.0 |
值得一提的是,InternLM-Chat-7B作为一个新出的70亿参数LLM模型,从评测的结果看还是比较令人惊艳的,几乎与Baichuan-13B130亿参数的模型的评测结果不相上下。期待它在实际应用中的效果验证,以及它的高性能版书生·浦语104B的应用效果。
我们在各个权威大语言模型的中英文benchmark上进行了5-shot评测。结果如下表所示:
Average | STEM | SocialSciences | Humanities | Others | |
---|---|---|---|---|---|
Chinese-Alpaca-Plus-13B | 38.8 | 35.2 | 45.6 | 40.0 | 38.2 |
Vicuna-13B | 32.8 | 30.5 | 38.2 | 32.5 | 32.5 |
Chinese-LLaMA-Plus-13B | 32.1 | 30.3 | 38.0 | 32.9 | 29.1 |
Ziya-LLaMA-13B-Pretrain | 30.0 | 27.6 | 34.4 | 32.0 | 28.6 |
LLaMA-13B | 28.5 | 27.0 | 33.6 | 27.7 | 27.6 |
moss-moon-003-base(16B) | 27.4 | 27.0 | 29.1 | 27.2 | 26.9 |
Baichuan-7B | 42.8 | 38.2 | 52.0 | 46.2 | 39.3 |
Baichuan-13B-Base | 52.4 | 45.9 | 63.5 | 57.2 | 49.3 |
Baichuan-13B-Chat | 51.5 | 43.7 | 64.6 | 56.2 | 49.2 |
MMLU | 52.0 | 40.4 | 60.5 | 49.5 | 58.4 |
LLaMA-13B | 46.3 | 36.1 | 53.0 | 44.0 | 52.8 |
Chinese-Alpaca-Plus-13B | 43.9 | 36.9 | 48.9 | 40.5 | 50.5 |
Ziya-LLaMA-13B-Pretrain | 42.9 | 35.6 | 47.6 | 40.1 | 49.4 |
Baichuan-7B | 42.3 | 35.6 | 48.9 | 38.4 | 48.1 |
Chinese-LLaMA-Plus-13B | 39.2 | 33.1 | 42.8 | 37.0 | 44.6 |
moss-moon-003-base(16B) | 23.6 | 22.4 | 22.8 | 24.2 | 24.4 |
Baichuan-13B-Base | 51.6 | 41.6 | 60.9 | 47.4 | 58.5 |
Baichuan-13B-Chat | 52.1 | 40.9 | 60.9 | 48.8 | 59.0 |
相关工具
相关文章
相关快讯
推荐
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19
15个作品涨粉26万!AI历史账号又出王炸案例!
2025-07-09 09:37
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21
FLUX.1 Kontext 一出,AI生图领域 “地震” 了!
2025-06-06 15:38
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15