[Paper] Sage Attention v3

FP4 推理框架

Motivation

在 NVIDIA Tensor Core 上，FP4 的计算速度比 FP16 快得多．所以希望提出 FP4 推理即插即用的模块用 FP4 做进一步提速．

Challenges for FP4 Inference

FP4 的推理主要面临几个问题：

FP4 量化的数值范围非常有限，只有 $15$ 个数值．

这导致 per-tensor 和 per-token 的量化方式无法保证模型精度．
Attention Map $P=\text{softmax}(\frac{QK^\top}{\sqrt{d}})$ 中的元素范围都较小，大多在 $[0,1]$ 之间，且靠近 $0$ ．

如果直接用 FP4 进行量化，那么大部分元素都会直接变成 $0$ ．所以，更常见的是引入 scaling factor $s$ ，然后 $P\approx \texttt{FP4}(P/s)\times s$ ．

但这样也有问题：因为 $P$ 的元素值都很小， $s$ 通常就要取到 $10^{-3}$ 的量级，而在 NVIDIA Hopper/Blackwell 等架构里，原生支持的 quantization scaling factor 的数据类型必须为 FP8，导致 scaling factor 在储存时会产生舍入误差．

具体方案

FP4 Microscaling 量化

对于 $X\in\mathbb{R}^{N\times d}$ 的矩阵，我们将其切分成若干个 $\mathbb{R}^{1\times n}$ 的 block，每一个 block 记为 $X_{ij}$ ，并且，一个 block 内的 $n$ 个元素共享同一个 FP8 scaling factor $s_{ij}$ ．于是 FP4 的量化与反量化可以表示为

\begin{array}{r|l} \text{Quantization }\phi(\cdot) & s_{ij}=\max(X_{ij})/6\\ &\hat X_{ij}=\lceil X_{ij}/s_{ij} \rfloor \\ \hline \text{Dequantization }\phi ^{-1}(\cdot) & X'_{ij}=s_{ij}\hat{X}_{ij} \end{array}

这里 $s_{ij}$ 本身也会构成一个矩阵。

FP4 Microscaling MatMul

实现一个新算子 $\texttt{FP4MM}(A',s_A,B',s_B)$ ，其输出 $C$ 等价于 $\phi^{-1}(A',s_A)$ 与 $\phi^{-1}(B',s_B)$ 之间的（相对）高精度的 MatMul．

Attention 计算

作者对 Attention 里的 $\mathbf{QK}^\top$ 和 $\mathbf{PV}$ 做了 $\tt{FP4MM}$ ．这里的 Attention 计算方式沿用了 Flash Attention 的计算过程（即 tiling + online softmax 那一套）

除此之外，为了进一步提高精度，对 $\mathbf{Q},\mathbf{K}$ 做了 smoothing 处理

数据类型选择

做实验发现以下配置得到的精度最高：

NVFP4 (E2M1)
$n=16$
scaling factor 为 FP8 (E4M3)

Attention Map 的两阶段量化

实验发现，直接对 $\tilde{\mathbf{P}}$ 进行 NVFP4 量化的精度误差非常大，主要原因在于，NVFP4 原生实现中，要求 scaling factor 是 E4M3 FP8 而非 FP32 格式．

为了进一步研究反量化精度误差的来源，在研究 $\tilde{\mathbf{P}}$ 的数值分布后认为：由于 online softmax 计算出来的 $\tilde{\mathbf{P}}$ 的值在 $[0,1]$ 之间，所以其 scaling factor $s_{ij}=\max(\tilde{\mathbf{P}}_{ij})/6$ 之数值范围通常落在 $[0,1/6]$ 之间，导致 E4M3 FP8 并没有发挥出值域范围大的优势，也增加了 accuracy loss．

所以提出两阶段量化：先将 $\tilde{\mathbf{P}}_{ij}$ 的范围放缩到 $\tilde{\mathbf{P}}^q_{ij}\in [0,448\times 6]$ ，再对 $\tilde{\mathbf{P}}^q_{ij}$ 进行量化：

\begin{aligned} \mathbf{s}_{\mathbf{P}}&=\texttt{rowmax}(\tilde{\mathbf{P}}_{ij})/(448\times 6) \\ \tilde{\mathbf{P}}^q_{ij}&=\tilde{\mathbf{P}}_{ij} / \mathbf{s}_{\mathbf{P}} \\ (\mathbf{s}_{\mathbf{P}^q}, \hat{\mathbf{P}}^q_{ij}) &= \phi(\tilde{\mathbf{P}}^q_{ij}) \\ \mathbf{O} &= \texttt{FP4MM}(\hat{\mathbf{P}}^q_{ij}, \mathbf{s}_{\mathbf{P}^q},\hat{\mathbf{V}}, \mathbf{s}_{\mathbf{V}}) \times \mathbf{s}_{\mathbf{P}} \end{aligned}

其中

$\tilde{\mathbf{P}}_{ij},\tilde{\mathbf{P}}^q_{ij},\mathbf{s}_{\mathbf{P}}\in \texttt{FP32}$
$\mathbf{s}_{\mathbf{P}^q},\mathbf{s}_{\mathbf{V}}\in\texttt{FP8 E4M3}$
$\hat{\mathbf{P}}^q,\hat{\mathbf{V}}$ 则是 $\tt FP4$ 格式．

这一套下来， $\tilde{\mathbf{P}}_{ij}\approx\hat{\mathbf{P}}_{ij}^q\times \mathbf{s}_{\mathbf{P}^q}\times \mathbf{s}_{\mathbf{P}}$

Empirical Result: 这个两阶段量化可以充分利用 $\mathbf{s}_{\mathbf{P}}$ 的 E4M3 数值范围，进而减小 $\tilde{\mathbf{P}}$ 的量化误差和 $\mathbf{s}_{\mathbf{P}}$ 的数值表示误差

算法流程

【输入】

$Q,K,V \in \texttt{FP16}^{N\times d}$
分块大小 $B_q,B_{kv}$

先仿照 Sage Attention 的做法，对 $K$ 做 smoothing： $K\gets K-\text{mean}(K)$

然后，将 $Q$ 切分为 $T_m=N/B_q$ 块 $\{\mathbf{Q}_i\}$ ，每一块 $\mathbf{Q}_i$ 的形状为 $\texttt{FP16}^{B_q\times d}$ ；同理，将 $K,V$ 也进行切块，切成 $\{\mathbf{K_i}\},\{\mathbf{V_i}\}$ ，形状为 $\texttt{FP16}^{B_{kv}\times d}$ ，数量为 $T_n=N/B_{kv}$ ．

对于每一块 $\mathbf{Q}_i, i \in [1,T_m]$ ：
1. 先进行 smoothing，然后直接 FP4 量化： $\bar q_i=\text{mean}(\mathbf{Q}_i), (s_{\mathbf{Q}_i},\hat{\mathbf{Q}}_i)=\phi(\mathbf{Q}_i-\bar q_i)$ ．这里的 $\bar q_i\in \texttt{FP16}$
2. 接着，遍历 $\mathbf{K}_j,\mathbf{V}_j,j\in[1,T_n]$ ．
  
  这一层循环里，我们对 $\mathbf{Q}_i$ 计算 Attention Map $\mathbf{P}$ ，并计算 partial output $\mathbf O$
  1. 对 $\mathbf{K}_j,\mathbf{V}_j$ 进行 FP4 量化： $(s_{\mathbf{K}_j},\hat{\mathbf{K}_j})=\phi(\mathbf{K}_j),(s_{\mathbf{V}_j},\hat{\mathbf{V}}_j)=\phi(\mathbf{V}_j)$
  2. 计算 $\mathbf{S}_{ij}=\mathbf{Q}_i\mathbf{K}_j^\top$ ．
    
    这里，因为我们之前其实把 $\mathbf{Q}_i$ 拆成了
    $\mathbf{Q}_i=(\mathbf{Q}_i-\bar q_i)+\bar q_i$
    所以
    $\mathbf{S}_{ij}=\mathbf{Q}_i\mathbf{K}_j^\top=(\mathbf{Q}_i-\bar q_i)\mathbf{K}_j^\top + \bar q_i \mathbf{K}_j^\top$
    因此，这里我们需要同理使用 $\tt FP4MM$ 和 $\tt GEMV$ （本质是标量乘矩阵）：
    $\mathbf{S}_{ij}=\texttt{FP4MM}(\hat{\mathbf{Q}}_i,s_{\mathbf{Q}_i},\hat{\mathbf{K}}_j,s_{\mathbf{K}_j})+\texttt{GEMV}(\bar q_i,\mathbf{K}_j^\top)$
  3. 然后，我们使用 Online Attention 的方法，在线计算 $\mathbf{S}_{ij}$ rowmax 和 $\ell_{ij}=\sum \exp(\cdot)$ ：
  $\begin{aligned}m_{i,j}&=\max(m_{i,j-1}, \texttt{rowmax}(\mathbf{S}_{ij})) \\ \tilde{\mathbf{P}}_{ij}&=\exp(\mathbf{S}_{ij}-m_{i,j}) \\ \ell_{ij}&= \exp(m_{i,j-1}-m_{ij})\cdot\ell_{i,j-1} + \texttt{rowsum}(\tilde{\mathbf{P}}_{ij})\end{aligned}$

CUDA Kernel 的实现优化

INT8 训练框架

Challenges for INT8 Training

对于 INT8 训练来说，其挑战在于：

Attention Map 的梯度很容易受量化误差的影响，导致在计算 input 的梯度时产生累加误差．