可以并行的条件?计算单元和访存单元是独立的硬件

Double Buffering: 设置两个相同的 SMem Buffer,用线程束特化,不同的 warp 负责不同的任务,e.g. 前一半 warp 负责计算,后一半 warp 负责存取.

Latency Hiding