Home
Blog
Posted on:
2026-03-09
Updated on:
2026-03-09
分布式训练
数据并行
将训练数据进行切分
梯度聚合
Param Server
All-Reduce
模型并行
将大模型的权重进行切分
Newer
ZeRO: Zero Redundancy Optimizer
Older
PyTorch Extension: 算子集成