基于英特尔®至强®处理器的ChatGLM高效微调优化方案

新知榜官方账号

2023-08-09 23:18:31

简介

ChatGPT的横空出世开启了大语言模型(LLM)的普及元年,BERT、GPT-4、ChatGLM等模型的非凡能力则展现出类似通用人工智能(AI)的巨大潜力,也因此得到了多行业、多领域的广泛关注。为加速这些大模型与特定领域的深度融合,以及更好地适应特定任务,基于任务特性对这些模型进行定制化微调至关重要。然而,它们庞大的参数使得用传统方式对大模型进行调优面临诸多挑战,不仅要求相关人员熟练掌握微调技巧,还需要付出巨大的训练成本。近年来,出现了参数高效微调(Parameter-EfficientFine-Tuning,PEFT)和提示微调(Prompt-tuning)技术。这些技术因其成本更低、应用方式更简单便捷,正在逐渐取代大模型传统调优方法。

微调优化方案

1、借助英特尔®AMX,大幅提升模型微调计算速度

AMX是内置于第四代英特尔®至强®可扩展处理器中的矩阵乘法加速器,能够更快速地处理BFloat16(BF16)或INT8数据类型的矩阵乘加运算,从而显著提升模型训练和推理的性能。PyTorch框架中已经可以通过具备BF16自动混合精度功能自动实现对AMX加速器的利用。对于ChatGLM-6B而言,只需在启动微调时加入CPU自动混合精度的使能参数即可直接利用英特尔®AMX带来的优势。

2、结合英特尔®MPI库充分利用处理器架构特点和多核配置,发挥CPU的整体效率

第四代英特尔®至强®可扩展处理器最多可拥有60个内核,这些内核通过4个集群(cluster)的方式进行内部组织。可以将同一个集群上的内核资源分配给同一个PyTorch实例,从而为单个实例提供更理想的计算效率。通过利用PyTorch的分布式数据并行(DistributedDataParallel,DDP)功能,还可将两个CPU上的8个集群的内核资源汇集在一起,充分发挥整体效率。通过安装MPI协议工具库并手工编译,可以在获得支持MPI后端的PyTorch后,在ChatGLMPrompt-tuning目录下的main.py修改一行代码即可实现分布式数据并行。

3、利用至强®CPUMax系列集成的HBM满足大模型微调所需的大内存带宽

英特尔®至强®CPUMax系列,配备64GB的HBM2e高带宽内存,为在CPU上高效运行大模型提供了高达~1TB/s的内存带宽支持。该CPU集成的HBM,能够在3种模式下灵活配置:HBM-Only模式、HBMFlat模式和HBM高速缓存模式。针对ChatGLM-6B微调,试验结果显示:与其他两种模式相比,HBM高速缓存模式在性能和使用方便性方面均更胜一筹。

本页网址:https://www.xinzhibang.net/article_detail-9637.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章