国内首款开源大模型Qwen-7B上线,参数10万亿,易用性媲美通用大模型

新知榜官方账号

2023-08-07 02:24:40

背景

今年以来,全球互联网大厂掀起“百模大战”,微软、谷歌、百度、阿里等接连下场。经过半年多的竞争,科技巨头们围绕大模型生态正迎来新一轮道路之争:面对参数“天花板”,大模型的未来走向封闭还是开放?

开源模型可在家用电脑运行。国内AI开发者社区“魔搭”(ModelScope)上架两款开源模型Qwen-7B和Qwen-7B-Chat,分别为阿里云通义千问的70亿参数通用模型和对话模型,两款模型均开源、免费、可商用。据介绍,Qwen-7B模型的综合表现不俗。其中在英文能力测评基准MMLU上,得分普遍高于同等参数规模的主流模型,甚至赶超120亿、130亿参数规模的部分模型。而在中文评测C-Eval验证集上,该模型也取得了同等规模的最高分。在数学解题能力评测GSM8K和代码能力评测HumanEval方面,Qwen-7B模型表现也名列前茅。也就是说,在中英文写作、数学解题以及写代码等考试中,Qwen-7B模型妥妥是一名“学霸”,分数甚至超过同等参数级别的国际主流大模型。

开源还是封闭

事实上,Qwen-7B模型并非首款开源的大模型,其实ChatGPT的“前辈”GPT-2也是彻底开源的,其代码和框架在互联网上均可免费使用,还有相关论文可供查阅。而OpenAI在ChatGPT火遍全球之后选择了闭源发展,GPT-3和GPT-4等模型代码已成为OpenAI的商业机密。开源考虑的是生态共荣,到底能赚多少钱的经济账,这一阶段很难算清楚,而这些难题恰好是闭源的机遇。开源还是闭源,这是一道大模型的生死题,国际巨头已给出答案。

大参数还是小而美

Qwen-7B模型的开源,还带来了另一个思考:我们到底需要多大参数的大模型?不可否认,大模型的参数规模正在不断膨胀。遗憾的是,参数越大并不代表大模型的能力越强。在世界人工智能大会上,腾讯云副总裁吴运声有一个很恰当的比喻:“就像运动员练体力,举重运动员要举200斤杠铃,游泳运动员举100斤就够了,不同类型的运动员不需要每个人都练习200斤重的杠铃。”众所周知,大模型的参数越高,消耗的资源和成本也越相应增加。而深耕行业的垂直类大模型,并不需要一味追求“规模大”或是“参数高”,更应该根据客户需求制定相关的模型参数。参数规模不再是衡量模型质量的重要指标。

结论

国内首款开源大模型Qwen-7B的上线,为开源生态建设提供了更多选择,也引发了对大模型易用性的关注。开源和闭源的优劣都非常明显。大模型开源后无疑会吸引更多开发者,大模型的应用也将更加丰富,但相应的监管和商业化将成为难题,容易出现“替人做嫁衣”的尴尬局面。毕竟,开源考虑的是生态共荣,到底能赚多少钱的经济账,这一阶段很难算清楚,而这些难题恰好是闭源的机遇。

本页网址:https://www.xinzhibang.net/article_detail-9423.html

寻求报道,请 点击这里 微信扫码咨询

关键词

开源 大模型 Qwen-7B

分享至微信: 微信扫码阅读

相关工具

相关文章