[Paper] Deepseek FP8 训练方案

Deepseek v3 发布的时候,也披露了其 FP8 训练的 solution 和 pipeline.实际上低精度训练框架的重要性也在日益凸显,毕竟又快又好就是王道.

[Paper] Sage Attention v3

Sage Attention v3,相比之前的两份工作更进一步,提出了 FP4 推理和 INT8 训练框架。