循环优化
指令优化
利用 AVX-512, SVE 等向量指令和 Tensor Core 等硬件特性,提升并行计算性能.
向量化指令
张量化指令
主要是 GPU 中的张量计算单元,如 NVIDIA GPU 的 Tensor Core,提供硬件层面的优化.包括 cuBLAS,或者直接使用更底层的模板库 cuTLASS 甚至指令 PTX.
内存优化
通过 prefetch, 双缓冲等技术隐藏内存延迟
- prefetch:提前将未来需要的数据加载
- 双缓冲:后台异步填充另一个缓冲区
代码生成
Triton, ninetoothed
- Layout 抽象
- 优化 Pass