AI 编译器后端优化中算子层面的优化

循环优化 指令优化 利用 AVX-512, SVE 等向量指令和 Tensor Core 等硬件特性,提升并行计算性能. 向量化指令 张量化指令 主要是 GPU 中的张量计算单元,如 NVIDIA GPU 的 Tensor Core,提供硬件...

后端优化

后端优化:内存管理优化

内存管理优化的思路主要是: 调整分配、释放的时间点和次数,减少分配、释放内存给运行时带来的时间开销 优化分配过程,尽可能减少总的内存占用。例如,通过跟踪计算图,只分配 peak 所需的内存 常规的做法的话,一般跑两次: 第一次是 AI Comp...

后端优化