CUDA Graph 介绍

解决 cudaLaunchKernel 调用次数过多以及避免 CPU-GPU 交互瓶颈.亮点在于一次性提交整个计算图、GPU 可以直接执行预编译的指令序列从而消除大量启动开销.

CUDA Graph