Posted on: 2026-03-25Updated on: 2026-03-25

cuda 常用官方库

算子性能调优的话，block size 也是可以进行调优的，包括 kernel 实现的选择．

cuDNN
cuBLAS, cuBLASXt, cuBLASLt
CUB 底层并行算法原语库，提供高效的 thread-level, wrap-level, block-level, device-level 操作
cuTLASS
- 将复杂的并行策略、Tiling、数据移动抽象成可复用的组件
cuSPARSE 稀疏矩阵的运算加速

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。