新知榜官方账号
2023-10-17 10:22:13
自2月份openAI的chatGPT推出以来,各大公司纷纷入局AI,各种大模型如雨后春笋般推出。但大模型昂贵的成本注定只能少数头部公司可以搞得起,那么小公司或者个人就没有机会了吗?答案是有的,那就是ChatGLM2-6B。
ChatGLM2-6B是一个由清华大学自然语言处理实验室(THUNLP)开源的、支持中英双语的对话语言模型。它基于GeneralLanguageModel(GLM)架构,具有62亿参数,可以在消费级显卡上进行本地部署,权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。开源地址:https://github.com/THUDM/ChatGLM2-6B,申请资质地址:https://chatglm.cn/。
ChatGLM2-6B在性能方面有了大幅度的提升。它使用了GLM的混合目标函数,经过了1.4T中英标识符的预训练与人类偏好对齐训练。相比于初代模型,ChatGLM2-6B在MMLU(+23%)、CEval(+33%)、GSM8K(+571%)、BBH(+60%)等数据集上的性能取得了大幅度的提升,在同尺寸开源模型中具有较强的竞争力。
ChatGLM2-6B具有更长的上下文和更高效的推理。基于FlashAttention技术,我们将基座模型的上下文长度(ContextLength)由ChatGLM-6B的2K扩展到了32K,并在对话阶段使用8K的上下文长度训练,允许更多轮次的对话。基于Multi-QueryAttention技术,ChatGLM2-6B有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了42%,INT4量化下,6G显存支持的对话长度由1K提升到了8K。
ChatGLM2-6B还有知识推理展示能力。它可以通过对话展示出其对知识的推理能力,为用户提供更好的服务。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16