【问题标题】:Is the Keras implementation of dropout correct?辍学的 Keras 实现是否正确?
【发布时间】:2016-07-26 14:40:28
【问题描述】:

dropout 引用 this paperKeras 实现。

以下摘自该论文:

这个想法是在测试时使用单个神经网络而不会丢失。 该网络的权重是经过训练的缩小版本 权重。如果在训练期间以概率 p 保留一个单元,则 该单元的输出权重在测试时乘以 p 为 如图2所示。

Keras 文档提到 dropout 仅在训练时使用,以及 Dropout 实现中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明层的输出确实只是在测试期间传递。

此外,我找不到像论文建议的那样在训练完成后缩小权重的代码。我的理解是,这个缩放步骤对于使 dropout 起作用从根本上是必要的,因为它相当于在“子网络”的集合中获取中间层的预期输出。没有它,计算就不能再被认为是从这个“子网络”集合中采样的。

那么,我的问题是,Keras 中实现 dropout 的缩放效果在哪里?

更新 1: 好的,所以 Keras 使用了倒置 dropout,尽管它在 Keras 文档和代码中被称为 dropout。链接http://cs231n.github.io/neural-networks-2/#reg 似乎并不表示两者是等价的。 https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout 的答案也没有。我可以看到他们做类似的事情,但我还没有看到有人说他们完全一样。我认为他们不是。

所以有一个新问题:dropout 和倒置 dropout 是等价的吗?明确地说,我正在寻找数学上的理由来说明它们是或不是。

【问题讨论】:

    标签: machine-learning neural-network deep-learning keras regularized


    【解决方案1】:

    是的。它实施得当。从 Dropout 被发明的那一刻起,人们也从实现的角度对其进行了改进。 Keras 正在使用其中一种技术。它被称为inverted dropout,您可以在here阅读。

    更新:

    说实话 - 在严格的数学意义上,这两种方法是不等价的。在反转情况中,您将每个隐藏激活乘以 dropout 参数的倒数。但是由于该导数是线性的,它相当于将所有梯度乘以相同的因子。为了克服这种差异,您必须设置不同的学习权重。从这个角度来看,这些方法有所不同。但从实际的角度来看 - 这种方法是等价的,因为:

    1. 如果您使用自动设置学习率的方法(如 RMSProp 或 Adagrad) - 算法几乎不会发生任何变化。
    2. 如果您使用自动设置学习率的方法 - 您必须考虑 dropout 的随机性,以及由于在训练阶段某些神经元将被关闭(在测试期间不会发生的情况/评估阶段) - 您必须重新调整学习率以克服这种差异。概率论为我们提供了最好的重新调用因子——它是 dropout 参数的倒数,它使得损失函数梯度长度的期望值在训练和测试/评估阶段都相同。

    当然 - 以上两点都是关于inverted dropout技术。

    【讨论】:

    • 谢谢。您能否提供对我提出的第二个问题的见解?
    • 好的,你能解释一下为什么它们是等价的(在答案中)?看起来使用 dropout 的网络 1 和使用倒置 dropout 的网络 2 计算的梯度会有所不同,因此它们会收敛到不同的最终状态。
    • 更新了我的评论
    【解决方案2】:

    摘自the original Dropout paper(第10节):

    在本文中,我们将 dropout 描述为一种方法,其中我们在训练时保留概率为 p 的单元,并在测试时通过将它们乘以 p 因子来缩小权重。实现相同效果的另一种方法是通过在训练时乘以 1/p 而在测试时不修改权重来扩大保留的激活。这些方法等价于适当缩放每一层的学习率和权重初始化。

    【讨论】:

      【解决方案3】:

      请注意,虽然 keras 的 dropout 层是使用倒置 dropout 实现的。与keep_rate相反的速率参数。

      keras.layers.Dropout(rate, noise_shape=None, seed=None)

      Dropout 包括将输入单元的分数率随机设置为 在训练期间每次更新时为 0,这有助于防止 过拟合。

      也就是说,rate 设置的是辍学率,而不是您期望的反向辍学率保持率

      Keras Dropout

      【讨论】:

        猜你喜欢
        • 2020-09-28
        • 2019-12-01
        • 2018-10-01
        • 2017-11-05
        • 1970-01-01
        • 2020-03-08
        • 2020-09-20
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多