LayerNorm 假设是在 CNN 的语境下,我们对一个 N×H×W×CN\times H\times W\times CN×H×W×C 的 tensor 做 LayerNorm。 LayerNorm 做的事实际上是对于每一个 H×W×CH\times W\times CH×W×C 做 Normalization.