LayerNorm

假设是在 CNN 的语境下,我们对一个 N×H×W×CN\times H\times W\times C 的 tensor 做 LayerNorm。

LayerNorm 做的事实际上是对于每一个 H×W×CH\times W\times C 做 Normalization.