新知榜官方账号
2023-08-09 23:18:31
ChatGPT的横空出世开启了大语言模型(LLM)的普及元年,BERT、GPT-4、ChatGLM等模型的非凡能力则展现出类似通用人工智能(AI)的巨大潜力,也因此得到了多行业、多领域的广泛关注。为加速这些大模型与特定领域的深度融合,以及更好地适应特定任务,基于任务特性对这些模型进行定制化微调至关重要。然而,它们庞大的参数使得用传统方式对大模型进行调优面临诸多挑战,不仅要求相关人员熟练掌握微调技巧,还需要付出巨大的训练成本。近年来,出现了参数高效微调(Parameter-EfficientFine-Tuning,PEFT)和提示微调(Prompt-tuning)技术。这些技术因其成本更低、应用方式更简单便捷,正在逐渐取代大模型传统调优方法。
AMX是内置于第四代英特尔®至强®可扩展处理器中的矩阵乘法加速器,能够更快速地处理BFloat16(BF16)或INT8数据类型的矩阵乘加运算,从而显著提升模型训练和推理的性能。PyTorch框架中已经可以通过具备BF16自动混合精度功能自动实现对AMX加速器的利用。对于ChatGLM-6B而言,只需在启动微调时加入CPU自动混合精度的使能参数即可直接利用英特尔®AMX带来的优势。
第四代英特尔®至强®可扩展处理器最多可拥有60个内核,这些内核通过4个集群(cluster)的方式进行内部组织。可以将同一个集群上的内核资源分配给同一个PyTorch实例,从而为单个实例提供更理想的计算效率。通过利用PyTorch的分布式数据并行(DistributedDataParallel,DDP)功能,还可将两个CPU上的8个集群的内核资源汇集在一起,充分发挥整体效率。通过安装MPI协议工具库并手工编译,可以在获得支持MPI后端的PyTorch后,在ChatGLMPrompt-tuning目录下的main.py修改一行代码即可实现分布式数据并行。
英特尔®至强®CPUMax系列,配备64GB的HBM2e高带宽内存,为在CPU上高效运行大模型提供了高达~1TB/s的内存带宽支持。该CPU集成的HBM,能够在3种模式下灵活配置:HBM-Only模式、HBMFlat模式和HBM高速缓存模式。针对ChatGLM-6B微调,试验结果显示:与其他两种模式相比,HBM高速缓存模式在性能和使用方便性方面均更胜一筹。
微信扫码咨询
相关工具
相关文章
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49