新知榜官方账号
2023-09-16 00:38:46
ColossalAI开源并行训练系统表示,已低成本复现了一个ChatGPT训练的基本流程,包括stage1预训练、stage2的奖励模型的训练,以及最为复杂的stage3强化学习训练。具体亮点包括:一个开源完整的基于PyTorch的ChatGPT等效实现流程,涵盖所有3个阶段,可以帮助你构建基于预训练模型的ChatGPT式服务。提供了一个迷你演示训练过程供用户试玩,它只需要1.62GB的GPU显存,并且可能在单个消费级GPU上实现,单GPU模型容量最多提升10.3倍。与原始PyTorch相比,单机训练过程最高可提升7.73倍,单GPU推理速度提升1.42倍,仅需一行代码即可调用。
在微调任务上,同样仅需一行代码,就可以在保持足够高的运行速度的情况下,最多提升单GPU的微调模型容量3.7倍。提供多个版本的单GPU规模、单节点多GPU规模和原始1750亿参数规模。还支持从HuggingFace导入OPT、GPT-3、BLOOM和许多其他预训练的大型模型到你的训练过程中。
ColossalAI是一个具有高效并行化技术的综合大规模模型训练系统;旨在无缝整合不同的并行化技术范式,包括数据并行、管道并行、多张量并行和序列并行。其声称已通过ZeRO、Gemini、Chunk-based内存管理等技术,极大地降低ChatGPT训练的显存开销;仅需一半硬件资源即可启动1750亿参数模型训练(从64卡到32卡),显著降低应用成本。若使用上述相同硬件资源,Colossal-AI则能以更短时间进行训练,节省训练成本,加速产品迭代。
为了让更多开发者体验复现ChatGPT模型,除1750亿参数版本外,Colossal-AI还提供高效的单GPU、单机4/8GPU的类ChatGPT版本,以降低硬件限制。博客内容还指出,在单机多GPU服务器上,即便使用最高端的A10080GB显卡,由于ChatGPT的复杂性和内存碎片,PyTorch最大仅能启动基于GPT-L(774M)这样的小模型的ChatGPT。用PyTorch原生的DistributedDataParallel(DDP)进行多卡并行扩展至4卡或8卡,性能提升有限。Colossal-AI不仅在单GPU速度上训练和推理优势明显,随着并行规模扩大还可进一步提升,最高可提升单机训练速度7.73倍,单GPU推理速度1.42倍;并且能够继续扩展至大规模并行,显著降低ChatGPT复现成本。
为了最大限度地降低培训成本和易用性,Colossal-AI提供了可以在单个GPU上试用的ChatGPT培训流程。与在14999美元的A10080GB上最多只能启动7.8亿个参数模型的PyTorch相比,Colossal-AI将单个GPU的容量提升了10.3倍,达到80亿个参数。对于基于1.2亿参数的小模型的ChatGPT训练,至少需要1.62GB的GPU内存,任意单个消费级GPU都可以满足。此外,Colossal-AI还在致力于降低基于预训练大型模型的微调任务的成本。以ChatGPT可选的开源基础模型OPT为例,Colossal-AI能够在单GPU上将微调模型的容量提高到PyTorch的3.7倍,同时保持高速运行。Colossal-AI为HuggingFace社区的GPT、OPT和BLOOM等主流预训练模型,提供了开箱即用的ChatGPT复现代码。以GPT为例,仅需一行代码,指定使用Colossal-AI作为系统策略即可快速使用。
微信扫码咨询
相关工具
相关文章
相关快讯
推荐
阿里Accio中文版上线!一键搞定复杂采购
2025-08-19 09:13
视频“用嘴编辑”的时代来了,但钱包顶得住吗?
2025-08-15 17:59
智谱新模型GLM-4.5V全面开源,玩家们有福啦!
2025-08-12 17:56
扎心文案+AI插画=爆款!揭秘8万赞视频的制作全流程
2025-08-12 10:08
GPT-5没你想的那么好,附实测体验~
2025-08-11 11:07
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49