CUDA Graph 介绍 解决 cudaLaunchKernel 调用次数过多以及避免 CPU-GPU 交互瓶颈.亮点在于一次性提交整个计算图、GPU 可以直接执行预编译的指令序列从而消除大量启动开销. 2026-03-25 CUDA Graph