machine-learning - 感知器学习算法的更新规则

在阅读有关感知器更新规则时，我遇到了两个不同的公式。

$1. w(t+1) = w(t) + y(t)x(t) (Yasher's Learning from Data)$

$2. w(t+1) = w(t) + \alpha(d-y(t))x(t)$

为什么会有两种不同的形式？

而且我不太明白该规则为何有效？
我如何证明它有效？

最佳答案

公式$1是Hebb's Rule的数学公式（不过，通常您会像第二个公式那样将学习率考虑在内）。可以解释为“如果两个神经元同时发射，则增加其重量”。这是神经网络最早，最简单的学习规则。

此规则对于培训（例如如果输入向量x或目标向量y是二进制，则更新变为0，并且您不再进行训练。

为了解决彼此连接但不能一起触发的神经元，此规则随后被改进为公式$2，即delta rule。现在，该规则实际上是更通用的Backpropagation算法的特殊情况，该算法用于带有multiple layers的网络。

您可以阅读链接页面上的“证明”（在此处复制/粘贴没有任何意义）。诸如Hebb规则之类的东西只需要片刻的思考，而不是实际的证明（尝试使用一张纸上的一些训练数据来计算它，您将了解它的作用和不作用）。

实际上，我建议您首先阅读更复杂的模型（多层感知器/反向传播），因为它更相关（单层感知器仅限于线性可分离的数据，因此它们不能学习例如XOR），如果您了解了这一点，便可以“免费”获得单层感知器。