动手学深度学习第4.8章某公式推导

这个公式是在计算神经网络中某个隐藏层神经元的输出 o i o_i oi 的期望值 E [ o i ] E[o_i] E[oi] 和方差 V a r [ o i ] \mathrm{Var}[o_i] Var[oi]。为了简化讨论，我们假设前一层神经元的输出 x j x_j xj 和权重 w i j w_{ij} wij 之间是独立的，并且它们的期望值为零，即 E [ x j ] = 0 E[x_j] = 0 E[xj]=0 和 E [ w i j ] = 0 E[w_{ij}] = 0 E[wij]=0。同时，我们假设权重 w i j w_{ij} wij 的方差为 σ 2 \sigma^2 σ2，前一层神经元输出 x j x_j xj 的方差为 γ 2 \gamma^2 γ2。

现在我们来看这个公式的推导过程：

首先计算输出 o i o_i oi 的期望值 E [ o i ] E[o_i] E[oi]：
E [ o i ] = ∑ j = 1 n i n E [ w i j x j ] = ∑ j = 1 n i n E [ w i j ] E [ x j ] = 0 , \begin{aligned} E[o_i] & = \sum_{j=1}^{n_\mathrm{in}} E[w_{ij} x_j] \\ & = \sum_{j=1}^{n_\mathrm{in}} E[w_{ij}] E[x_j] \\ & = 0, \end{aligned} E[oi]=j=1∑ninE[wijxj]=j=1∑ninE[wij]E[xj]=0,
这里我们使用了独立随机变量的期望值乘法规则： E [ X Y ] = E [ X ] E [ Y ] E[XY] = E[X]E[Y] E[XY]=E[X]E[Y]。
接下来计算输出 o i o_i oi 的方差 V a r [ o i ] \mathrm{Var}[o_i] Var[oi]：
V a r [ o i ] = E [ o i 2 ] − ( E [ o i ] ) 2 = ∑ j = 1 n i n E [ w i j 2 x j 2 ] − 0 = ∑ j = 1 n i n E [ w i j 2 ] E [ x j 2 ] = n i n σ 2 γ 2 . \begin{aligned} \mathrm{Var}[o_i] & = E[o_i^2] - (E[o_i])^2 \\ & = \sum_{j=1}^{n_\mathrm{in}} E[w^2_{ij} x^2_j] - 0 \\ & = \sum_{j=1}^{n_\mathrm{in}} E[w^2_{ij}] E[x^2_j] \\ & = n_\mathrm{in} \sigma^2 \gamma^2. \end{aligned} Var[oi]=E[oi2]−(E[oi])2=j=1∑ninE[wij2xj2]−0=j=1∑ninE[wij2]E[xj2]=ninσ2γ2.
在这里，我们首先使用了方差的定义 V a r [ X ] = E [ X 2 ] − ( E [ X ] ) 2 \mathrm{Var}[X] = E[X^2] - (E[X])^2 Var[X]=E[X2]−(E[X])2。然后，我们再次应用了独立随机变量的期望值乘法规则： E [ X 2 Y 2 ] = E [ X 2 ] E [ Y 2 ] E[X^2 Y^2] = E[X^2]E[Y^2] E[X2Y2]=E[X2]E[Y2]。最后，由于所有权重 w i j w_{ij} wij 和神经元输出 x j x_j xj 的方差分别相等（分别为 σ 2 \sigma^2 σ2 和 γ 2 \gamma^2 γ2），我们可以将求和转化为 n i n σ 2 γ 2 n_\mathrm{in} \sigma^2 \gamma^2 ninσ2γ2。

所以，这个公式中的 n i n σ 2 γ 2 n_\mathrm{in} \sigma^2 \gamma^2 ninσ2γ2 是通过计算神经元输出 o i o_i oi 的方差 V a r [ o i ] \mathrm{Var}[o_i] Var[oi] 推导出来的。

我想要身体健康

动手学深度学习第4.8章某公式推导