4.2. zero bubble pipeline parallelism#
流水线并行是大规模分布式训练的核心技术,但其效率常受流水线气泡的严重影响,这一挑战难以忽视。 在这项工作中,我们介绍了一种调度策略,据我们所知,这是首次在同步训练语义下成功实现零流水线 气泡的策略。这项改进背后的关键思想是将反向计算拆分为两部分,一部分计算输入的梯度,另一部分 计算参数的梯度。基于这一思想,我们手工设计了新颖的流水线调度方案,在性能上显著优于基准方法。 我们还开发了一种算法,该算法可以根据特定的模型配置和内存限制自动找到最优调度方案。此外,为了 真正实现零气泡,我们引入了一种新技术来绕过优化器步骤中的同步操作。
论文总结参加微信: zero_bubble_pipeline_parallelism