循环优化

指令优化

利用 AVX-512, SVE 等向量指令和 Tensor Core 等硬件特性,提升并行计算性能.

向量化指令

张量化指令

主要是 GPU 中的张量计算单元,如 NVIDIA GPU 的 Tensor Core,提供硬件层面的优化.包括 cuBLAS,或者直接使用更底层的模板库 cuTLASS 甚至指令 PTX.


内存优化

通过 prefetch, 双缓冲等技术隐藏内存延迟

  • prefetch:提前将未来需要的数据加载
  • 双缓冲:后台异步填充另一个缓冲区

代码生成

Triton, ninetoothed

  • Layout 抽象
  • 优化 Pass