在阅读有关感知器更新规则时,我遇到了两个不同的公式。

$1. w(t+1) = w(t) + y(t)x(t) (Yasher's Learning from Data)$

$2. w(t+1) = w(t) + \alpha(d-y(t))x(t)$


为什么会有两种不同的形式?

而且我不太明白该规则为何有效?
我如何证明它有效?

最佳答案

公式$1Hebb's Rule的数学公式(不过,通常您会像第二个公式那样将学习率考虑在内)。可以解释为“如果两个神经元同时发射,则增加其重量”。这是神经网络最早,最简单的学习规则。

此规则对于培训(例如如果输入向量x或目标向量y是二进制,则更新变为0,并且您不再进行训练。

为了解决彼此连接但不能一起触发的神经元,此规则随后被改进为公式$2,即delta rule。现在,该规则实际上是更通用的Backpropagation算法的特殊情况,该算法用于带有multiple layers的网络。

您可以阅读链接页面上的“证明”(在此处复制/粘贴没有任何意义)。诸如Hebb规则之类的东西只需要片刻的思考,而不是实际的证明(尝试使用一张纸上的一些训练数据来计算它,您将了解它的作用和不作用)。

实际上,我建议您首先阅读更复杂的模型(多层感知器/反向传播),因为它更相关(单层感知器仅限于线性可分离的数据,因此它们不能学习例如XOR),如果您了解了这一点,便可以“免费”获得单层感知器。

10-06 01:57