Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.Tensor Core 能在单个时钟周期内完成一个小规模矩阵块(如 4x4x4, 8x4x8)的整个 MMA 操作
这里的混合精度通常是指 FP16/FP32, BF16/FP32,也有其他类型的混合,例如 Deepseek FP8 方案里有提到可以 FP8 计算 + FP14 累加.
Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.Tensor Core 能在单个时钟周期内完成一个小规模矩阵块(如 4x4x4, 8x4x8)的整个 MMA 操作
这里的混合精度通常是指 FP16/FP32, BF16/FP32,也有其他类型的混合,例如 Deepseek FP8 方案里有提到可以 FP8 计算 + FP14 累加.