NVIDIA GPU 大学习之 Tensor Core
Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.
Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.
如果同一个 warp 内线程执行的操作不一样,GPU 就必须串行化执行所有分支路径. NCU 指标 Source Page > Avg. Predicated-On Threads Executed 查看 PTX,发现 bra 分支跳转占了很...
stall: 空闲 TLP: 增大 per-block thread count TLP = 每个 SM 更多线程,每个线程资源更少 ILP = 每个 SM 更少线程,每个线程资源更多 Dual Issue: 两条指令必须独立类型且无资源冲突 AoS...
#pragma unroll,减少循环控制的开销,如条件判断、分支跳转、计数器更新;提高指令级并行. __builtin_assume(cond) 向编译器断言表达式 cond 在此时为 true,编译器可能启用特定优化 __restrict__ 应...
量化也可以用于算子优化.基本上就是精度与速度/吞吐之间的权衡
工厂模式,一种用于创建对象的范式
InfiniTensor 九齿项目梳理.CodeGenerator 是在 Python AST 上进行分析和优化,再转换成 Triton 代码
Rust 中表示类型转换可能失败的 trait