差分学习率 - Keras答案

【问题标题】：Differential learning Rates - Keras差分学习率 - Keras
【发布时间】：2019-06-11 02:03:04
【问题描述】：

我在 Medium 上阅读了一篇名为 Differential Learning Rates 的文章，想知道这是否可以在 Keras 中应用。我能够找到在 pytorch 中实现的这种技术。这可以在 Keras 中实现吗？有人可以提供任何示例代码吗？

【问题讨论】：

这在 Keras 中不可用。你会在 github 上找到一些关于学习率乘数的讨论，比如这里：github.com/keras-team/keras/pull/3004
您还可以找到自己实现的 cmets。也许你可以看看他们的实现。

标签： keras neural-network tf.keras

【解决方案1】：

从Tensorflow 2.4开始， tf.keras.optimizers.Optimizer中有一个参数：gradient_transformers。它是一个函数列表，它接受并返回一对[(gradient, Variable), ...] 的列表。您可以通过此参数将差分学习率实现为根据网络中权重位置降低学习率的转换。

【讨论】：