CUDA Multiple GPU
1. Explicit Cross GPU Memcpy + Per-Device Operation Use DMA for P2P data transmission, otherwise use CPU for hopping. cudaS...
1. Explicit Cross GPU Memcpy + Per-Device Operation Use DMA for P2P data transmission, otherwise use CPU for hopping. cudaS...
使用 cuda-gdb 对 cuda 程序进行排错
Swizzling 技术用于解决 CUDA 并行编程中 Bank Conflict 的问题.
用 CUDA 编写 ArgMax 算子,加深理解
InfiniTensor CUDA 方向项目之 NF4 反量化算子,算是记录一下 CUDA Kernel 的实现思路与优化历程(然而大部分是 AI 写的)。既然是第一集,就先简单提一下项目背景什么的。