Posted on: 2026-03-09Updated on: 2026-03-09

分布式训练

数据并行

将训练数据进行切分

梯度聚合

Param Server
All-Reduce

模型并行

将大模型的权重进行切分

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。