算子性能调优的话,block size 也是可以进行调优的,包括 kernel 实现的选择.
cuDNNcuBLAS,cuBLASXt,cuBLASLtCUB底层并行算法原语库,提供高效的 thread-level, wrap-level, block-level, device-level 操作cuTLASS- 将复杂的并行策略、Tiling、数据移动抽象成可复用的组件
cuSPARSE稀疏矩阵的运算加速
算子性能调优的话,block size 也是可以进行调优的,包括 kernel 实现的选择.
cuDNNcuBLAS, cuBLASXt, cuBLASLtCUB 底层并行算法原语库,提供高效的 thread-level, wrap-level, block-level, device-level 操作cuTLASS
cuSPARSE 稀疏矩阵的运算加速