阿里云开源70亿参数通义千问模型,成国内首家加入大模型开源行列的科技企业

新知榜官方账号

2023-08-04 03:08:44

背景介绍

大模型激战之际,继海外的Meta之后,阿里巴巴成为又一家推动人工智能(AI)大模型“安卓时刻”潮流的科技巨头。8月3日周四,阿里云将70亿参数的通义千问模型开源,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。这两款模型均已上线国内首个“模型即服务”开放平台魔搭社区,开源、免费、可商用。

模型介绍

公开资料显示,Qwen-7B使用去重及过滤后超过2.2万亿tokens的数据进行预训练,是支持中、英等多种语言的基座模型,上下文窗口长度达到8k。它包含高质量中、英、多语言、代码、数学等数据,囊括全网文本、百科、书籍、代码、数学及各个领域垂类。评测英文综合能力的基准评测之一MMLU的评测结果显示,在英文评测方面,Qwen-7B的效果超过了目前国内外其他同类开源预训练模型,对比更大规模版本的模型也具有较强竞争力。中文评测方面,在C-Eval验证集上,Qwen-7B在同等规模现有模型中取得了最高分数,甚至相比更大规模模型也具有较强竞争力。以下为Qwen-7B的MMLU5-shot准确率结果对比。

在Qwen-7B的基础上,阿里云使用对齐机制打造了基于基座模型的AI助手Qwen-7B-Chat。它是基于Transformer的中英文对话大语言模型,已实现与人类认知对齐。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。无论是在C-Eval验证集上,还是在MMLU评测集上,Qwen-7B-Chat模型的zero-shot准确率均在同类对齐模型中表现较优。以下为C-Eval测试集上的zero-shot准确率结果对比。

开源优势

通义千问的开源后,阿里云成为国内首个加入大模型开源行列的大型科技企业。今年7月,微软宣布,联手Meta发布开源AI模型的可商用版本Llama2,提供OpenAI和谷歌模型的平替产品。也是在7月,智谱AI及清华KEG实验室公布,中国顶尖开源大模型ChatGLM2-6B允许免费商用。

开源模型的好处包括用户的接受率更高,然后输入更多数据供人工智能处理。LLM拥有的数据越多,其功能就越强大。开源模型使研究人员和开发人员能够发现和解决漏洞,同时提高技术和安全性。

未来展望

今年4月的2023阿里云峰会上,阿里巴巴宣布向企业开放通义千问,企业可以调用通义千问的能力训练自己的大模型。阿里云智能集团首席技术官(CTO)周靖人当时介绍,未来企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自身的行业知识和应用场景,训练自己的企业大模型。比如,每个企业都可以有自己的智能客服、智能导购、智能语音助手、文案助手、AI设计师、自动驾驶模型等。阿里巴巴集团CEO兼阿里云智能集团CEO张勇当时称,阿里巴巴所有产品未来都将接入通义千问大模型。张勇表示,面向AI时代,所有产品都值得用大模型重做一次,而基于这一信念,阿里云也希望帮助更多企业用上大模型,让每家企业都能基于通义千问,拥有具备自己行业能力的专属大模型。

本页网址:https://www.xinzhibang.net/article_detail-9226.html

寻求报道,请 点击这里 微信扫码咨询

关键词

阿里云 通义千问 模型开源

分享至微信: 微信扫码阅读

相关工具

相关文章