Arca's Blog

NVIDIA GPU 大学习之 Tensor Core

Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的，从 Volta 架构开始支持．

如果同一个 warp 内线程执行的操作不一样，GPU 就必须串行化执行所有分支路径． NCU 指标 Source Page > Avg. Predicated-On Threads Executed 查看 PTX，发现 bra 分支跳转占了很...

stall: 空闲 TLP: 增大 per-block thread count TLP = 每个 SM 更多线程，每个线程资源更少 ILP = 每个 SM 更少线程，每个线程资源更多 Dual Issue: 两条指令必须独立类型且无资源冲突 AoS...

#pragma unroll，减少循环控制的开销，如条件判断、分支跳转、计数器更新；提高指令级并行． __builtin_assume(cond) 向编译器断言表达式 cond 在此时为 true，编译器可能启用特定优化 __restrict__ 应...

量化也可以用于算子优化．基本上就是精度与速度/吞吐之间的权衡

工厂模式，一种用于创建对象的范式

InfiniTensor 九齿项目梳理．CodeGenerator 是在 Python AST 上进行分析和优化，再转换成 Triton 代码

Rust 中表示类型转换可能失败的 trait

1 234 5…12