cuda-gdb 简易指南

使用 cuda-gdb 对 cuda 程序进行排错

CUDA Optimization: Swizzling

Swizzling 技术用于解决 CUDA 并行编程中 Bank Conflict 的问题.

CUDA Kernel: ArgMax

用 CUDA 编写 ArgMax 算子,加深理解

NF4 Dequant CUDA Kernel 优化过程 (1)

InfiniTensor CUDA 方向项目之 NF4 反量化算子,算是记录一下 CUDA Kernel 的实现思路与优化历程(然而大部分是 AI 写的)。既然是第一集,就先简单提一下项目背景什么的。

cuda 编写 flash attention 算子