在监督学习模型上应用“强化学习”答案

【问题标题】：Applying "reinforcement learning" on a supervised learning model在监督学习模型上应用“强化学习”
【发布时间】：2019-11-21 00:33:09
【问题描述】：

是否可以在监督模型上使用“强化学习”或反馈循环？

我曾使用监督学习模型（更准确地说是线性回归模型）处理机器学习问题，但我想通过创建一个关于预测输出的反馈循环，即告诉算法它是否在某些示例上出错。

据我所知，这基本上是强化学习的工作原理：模型从正面和负面反馈中学习。

我发现我们可以使用 PyBrain 实现监督学习和强化学习算法，但我找不到将两者联系起来的方法。

【问题讨论】：

【解决方案1】：

强化学习已用于调整超参数和/或选择最佳监督学习模型。还有一篇关于它的论文：“Learning to optimize with Reinforcement Learning”。

阅读 Pablo 的答案，您可能想阅读“反向传播”。这可能是您正在寻找的东西。

【讨论】：

【解决方案2】：

大多数（或可能全部）迭代监督学习方法已经在预测输出上使用了反馈循环。事实上，这个反馈是非常有用的，因为它提供了每个样本中准确的误差量的信息。以随机梯度下降为例，计算每个样本的误差以更新模型参数。

在强化学习中，反馈信号（即奖励）比在监督学习中受限得多。因此，在调整某些模型参数的典型设置中，如果您有一组输入输出（即训练数据集），那么应用强化学习可能没有意义。

如果您正在考虑更具体的案例/问题，您的问题应该更具体。

【讨论】：