新知榜官方账号
2023-08-29 22:34:59
记者今天从商汤科技获悉,这家企业联合上海人工智能实验室等多家科研机构研发的AI大语言模型“书生·浦语”(InternLM-123B)在12项权威评测中超越GPT-4,综合性能全面超越GPT-3.5-turbo。
今年上半年,商汤发布了“日日新”大模型体系,并发布了国内第一个综合性能全面超越GPT-3.5-turbo的基模型“书生·浦语”(InternLM)。这个大模型的研发共投入约10000张GPU,其能力实现了飞跃式发展。今年8月,新模型InternLM-123B完成训练,参数量提升至1230亿。这个新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括MMLU、AGIEval、ARC、Ceval、Race、GSM8K等)共计30万道问题集合上,测试成绩整体排名全球第二,超过GPT-3.5-turbo以及Meta公司新发布的LLaMA2-70B等模型。
据介绍,InternLM-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的AGIEval分数为57.8,超越GPT-4位列第一;知识问答CommonSenseQA的评测分数为88.5,排名第一;InternLM-123B在阅读理解的五项评测中成绩全部居榜首;此外,在推理的五项评测中成绩排名第一。与第一代“书生·浦语”大模型相比,InternLM-123B不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力,可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。
在此基础上,商汤自主研发的“商量”(SenseChat)大模型将在9月升级到3.0版本。在向全球领先的GPT-4发起冲击的同时,商汤与多家科研机构合作,推进AI大模型开源平台建设,InternLM-7B(70亿参数)的部分训练数据、训练代码、基模型权重已经向学术界和工业界免费开源,并支持商用。目前,InternLM-7B在多个模型测试榜单高居榜首,成为世界上性能最好的轻量级基模型之一。
商汤表示,期待看到AI社区对InternLM的改进和更多AI应用的共建。大语言模型的突破带来了产业新机遇。基于InternLM模型,结合自研推理加速算法,商汤正在与头部手机芯片厂商合作研发,已实现大语言模型的手机端实时计算能力,将为手机操作系统增加一系列新功能。
“今年上半年,大模型和生成式AI可以说是全球最受瞩目的科技突破。”商汤集团董事会执行主席兼首席执行官徐立博士说,“我们希望给行业带来更强的大模型能力,助力我们的用户在生成式AI的时代做出颠覆性产品。”
栏目主编:黄海华
来源:
作者:俞陶然
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16