Challenges 通过对 attention 的调查,认为 INT8 量化不奏效主要有两个原因: KKK 矩阵表现出 channel-wise outliers,在量化时会导致较大误差 对 (P,V)(P,V)(P,V) 直接进行 INT8 量化无法在多个场景下保证 PVPVPV 矩阵乘的精度