Batch Norm 与 Layer Norm

Source

这里写自定义目录标题

1 为何要对输入数据做 Normalization
2 Batch Normalization
3 Layer Normalization
4 实际应用
参考

1 为何要对输入数据做 Normalization

可以比较好的抑制梯度消失和梯度爆炸的情况

归一化技术就是让每一层的分布稳定下来，让后面的层能在前面层的基础上“安心学习”。BatchNorm 就是通过对 batch size 这个维度归一化来让分布稳定下来。LayerNorm 则是通过对 Hidden size 这个维度归一。

不管是 Batch Normalization 还是 Layer Normalization，Normalization 的目的是为了把输入转化成均值为 0 方差为 1 的数据。换句话说，这里的 Normalization 其实应称为 Standardization（标准化），而不是 Normalization（归一化）

Normalization：
在这里插入图片描述