谷歌、DeepMind、Microsoft和Uber使用的深度学习框架

新知榜官方账号

2023-11-29 04:08:18

谷歌、DeepMind、Microsoft和Uber使用的深度学习框架

深度学习框架的发展已经非常迅速了,但相应的基础架构模型仍处于初期阶段。在过去的几年里,谷歌、微软、优步和DeepMind等科技巨头定期发布了各自的研究成果,以便在大型GPU等基础设施上实现深度学习模型的并行化。本文介绍了谷歌、DeepMind、Microsoft和Uber使用的四种深度学习框架:GPipe、Horovod、TFReplicator和DeepSpeed,并分析了它们各自的特点和优势。

谷歌的GPipe

GPipe专注于为深度学习项目提高训练工作量。将深度学习模型的并行性分为数据并行性和模型并行性,是一种研究深度学习模型并行性的有效方法。GPipe采用一种称为管道的技术,将数据和模型并行性结合起来。GPipe将一个模型划分到不同的加速器上,并自动将一个小批量的训练实例分割成更小的微批量。该模型允许GPipe的加速器并行运行,以最大限度地提高了训练过程的可伸缩性。

优步的Horovod

Horovod是Uber的机器学习(ML)堆栈之一,它已经在社区中非常流行,并且已经被DeepMind和OpenAI等人工智能巨头的研究团队采用。Horovod是一个用于大规模运行分布式深度学习训练工作的框架。通过使用消息传递接口栈,使训练作业能够在高度并行和分布式的基础设施上运行,而无需进行任何修改。

DeepMind的TF-Replicator

TF-Replicator专注于TensorFlow程序如何利用Tensor处理单元(TPU)有关的可伸缩性的另一个方面。TF-Replicator的魔力依赖于一种“图内复制(in-graph replication)”模型,其中每个设备的计算被复制到同一张TensorFlow图中。TF-Replicator利用TensorFlow的图重写模型在图中的设备之间插入本机通信。用户只需定义一个公开数据集的输入函数和一个定义其模型逻辑的阶跃函数。

微软的DeepSpeed

DeepSpeed是一个新的开源框架,专注于优化大型深度学习模型的训练。当前版本包含了ZeRO的第一个实现以及其他优化方法。DeepSpeed是在PyTorch之上构建的,它提供了一个简单的API,允许工程师只需几行代码就可以利用并行化技术来进行训练。DeepSpeed抽象了大规模训练的所有困难方面,使得开发人员可以专注于模型的构建。

本页网址:https://www.xinzhibang.net/article_detail-21352.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章