FlashMask 的核心就在于:进行带 mask 的矩阵乘法时,我们按列看,发现被 mask 掉的地方可以表示为两个连续的区间的并集,这两个连续区间一个在下三角区域,一个在上三角区域. mask(r,c)=[L1,R1]∪[L2,R2]mask(r, c) = [L_1, R_1] \cup [L_2, R_2] mask(r,c)=[L1,R1]∪[L2,R2]