stall: 空闲

TLP: 增大 per-block thread count

TLP = 每个 SM 更多线程,每个线程资源更少
ILP = 每个 SM 更少线程,每个线程资源更多

Dual Issue: 两条指令必须独立类型且无资源冲突

AoS: arrays of struct
SoA: struct of arrays (一般来说 SoA 更好)