NVIDIA GPU 大学习之 Tensor Core

Tensor Core 是专门用于高效执行混合精度的矩阵乘累加运算的,从 Volta 架构开始支持.

CUDA 算子优化:Warp Divergence

如果同一个 warp 内线程执行的操作不一样,GPU 就必须串行化执行所有分支路径. NCU 指标 Source Page > Avg. Predicated-On Threads Executed 查看 PTX,发现 bra 分支跳转占了很...

CUDA 算子优化:ILP

stall: 空闲 TLP: 增大 per-block thread count TLP = 每个 SM 更多线程,每个线程资源更少 ILP = 每个 SM 更少线程,每个线程资源更多 Dual Issue: 两条指令必须独立类型且无资源冲突 AoS...

CUDA 算子优化:微指令调优

#pragma unroll,减少循环控制的开销,如条件判断、分支跳转、计数器更新;提高指令级并行. __builtin_assume(cond) 向编译器断言表达式 cond 在此时为 true,编译器可能启用特定优化 __restrict__ 应...

CUDA 算子优化:PTX

CUDA 算子优化:量化

量化也可以用于算子优化.基本上就是精度与速度/吞吐之间的权衡

Design Pattern: Factory Method

工厂模式,一种用于创建对象的范式

ninetoothed: CodeGenerator workflow

InfiniTensor 九齿项目梳理.CodeGenerator 是在 Python AST 上进行分析和优化,再转换成 Triton 代码

Rust Iterators

Rust Trait (3): TryFrom, TryInto

Rust 中表示类型转换可能失败的 trait

1234512