算子性能调优的话,block size 也是可以进行调优的,包括 kernel 实现的选择.

  • cuDNN
  • cuBLAS, cuBLASXt, cuBLASLt
  • CUB 底层并行算法原语库,提供高效的 thread-level, wrap-level, block-level, device-level 操作
  • cuTLASS
    • 将复杂的并行策略、Tiling、数据移动抽象成可复用的组件
  • cuSPARSE 稀疏矩阵的运算加速