【发布时间】:2015-06-05 06:31:18
【问题描述】:
在阅读感知器更新规则时,我遇到了两个不同的公式。
$1. w(t+1) = w(t) + y(t)x(t) (Yasher's Learning from Data)$
$2. w(t+1) = w(t) + \alpha(d-y(t))x(t)$
为什么会有两种不同的形式?
我不太明白为什么该规则有效? 我如何证明它有效?
【问题讨论】:
标签: machine-learning
在阅读感知器更新规则时,我遇到了两个不同的公式。
$1. w(t+1) = w(t) + y(t)x(t) (Yasher's Learning from Data)$
$2. w(t+1) = w(t) + \alpha(d-y(t))x(t)$
为什么会有两种不同的形式?
我不太明白为什么该规则有效? 我如何证明它有效?
【问题讨论】:
标签: machine-learning
方程$1 是Hebb's Rule 的数学公式(不过,通常你会像第二个方程一样考虑学习率)。它可以解释为“如果两个神经元同时放电,则增加它们的权重”。是最早也是最简单的神经网络学习规则。
此规则不适用于训练,例如如果输入向量 x 或目标向量 y 是二进制的,则更新变为 0,您不再训练。
为了解决相互连接但不同时触发的神经元,该规则随后被改进为等式$2,delta rule。现在,这条规则实际上是更通用的Backpropagation 算法的一个特例,该算法用于multiple layers 的网络。
您可以阅读链接页面上的“证明”(在此处复制/粘贴是没有意义的)。像 Hebb 规则这样的东西只需要片刻的思考而不是实际的证明(尝试用纸上的一些训练数据来计算它,你就会明白它的作用和不作用的地方)。
我实际上建议先阅读更复杂的模型(多层感知器/反向传播),因为它更相关(单层感知器仅限于线性可分数据,因此它们无法学习,例如 XOR ) 如果你理解它,你就可以“免费”获得单层感知器。
【讨论】: