Transformer的Encoder为什么使用Lay Normalization而不是BatchNormalization?

Lay Normalization: LN
Batch Normalization: BN

一、为什么要进行Normalize呢？
在神经网络进行训练之前，都需要对于输入数据进行Normalize归一化，目的有二：

能够加快训练的速度。
提高训练的稳定性。

Transformer的Encoder为什么使用Lay Normalization而不是BatchNormalization?-LMLPHP
先看图，LN是在同一个样本中不同神经元之间进行归一化，而BN是在同一个batch中不同样本之间的同一位置的神经元之间进行归一化。
BN是对于相同的维度进行归一化，但是咱们NLP中输入的都是词向量，一个300维的词向量，单独去分析它的每一维是没有意义地，在每一维上进行归一化也是适合地，因此这里选用的是LN。

参考博客：Click Here

二、文本数据可以用BN吗？
文本数据的LayerNorm归一化【文本数据的主要区分度来自于词向量(Embedding向量)的方向，所以文本数据的归一化一定要在特征(通道)维度上操作以保持词向量方向不变。此外文本数据还有一个重要的特点是不同样本的序列长度往往不一样，所以不可以在Sequence和Batch维度上做归一化，否则将不可避免地让padding位置对应的向量变成非零向量】

注意：
一般而言，

结构化数据的BatchNorm1D归一化
【结构化数据的主要区分度来自每个样本特征在全体样本中的排序，将全部样本的某个特征都进行相同的放大缩小平移操作，样本间的区分度基本保持不变，所以结构化数据可以做BatchNorm，但LayerNorm会打乱全体样本根据某个特征的排序关系，引起区分度下降】
图片数据的各种归一化(一般常用BatchNorm2D)【图片数据的主要区分度来自图片中的纹理结构，所以图片数据的归一化一定要在图片的宽高方向上操作以保持纹理结构，此外在Batch维度上操作还能够引入少许的正则化，对提升精度有进一步的帮助。】

薰珞婷紫小亭子

Transformer的Encoder为什么使用Lay Normalization而不是BatchNormalization?