每个状态都是终端的强化学习答案

【问题标题】：Reinforcement Learning where every state is terminal每个状态都是终端的强化学习
【发布时间】：2019-07-19 02:46:11
【问题描述】：

我的问题与强化学习的实现无关，而是要理解每个状态都是终端状态时 RL 的概念。

我举个例子：一个机器人正在学习踢足球，只是射击。奖励是球射门后与球门柱之间的距离。状态是多个特征的数组，动作是具有三维力的数组。

如果我们考虑情节强化学习，我觉得这种方法没有意义。确实，机器人射击并给予奖励：每一集都是最后一集。将下一个状态传递给系统是没有意义的，因为算法并不关心它来优化奖励——在这种情况下，我将使用 Actor-Critic 方法来处理连续状态和动作空间。有人可能会争辩说，一种不同的监督学习方法，例如深度神经网络，可能效果更好。但我不确定，因为在这种情况下，该算法将无法在远离训练集的输入中取得良好的结果。据我所见，RL 能够更好地泛化这种情况。

问题是：RL 是解决这个问题的有效方法，在这种情况下如何管理终端状态？你知道文献中有类似的例子吗？

【问题讨论】：

您好，您有没有找到合适的算法来解决它？我有一个完全相同的问题。如果您对解决方案有更多信息，我们将不胜感激
@corvo 正如其他用户所说，RL 试图解决这个特定设置没有的问题：奖励归因。如果每个状态都是最终状态，那么学习将状态映射到动作以最大化累积预期奖励的策略是没有意义的，因为累积预期奖励只是情节奖励。
是的，一定是因为不能使用RL。您还有其他推荐算法吗？

标签： machine-learning reinforcement-learning

【解决方案1】：

强化学习解决了你没有的问题

RL 方法所针对的主要困难是将奖励归因于更早的行为，找出方法来处理（常见的）并发症，其中没有关于您做对或做错的事情（以及何时）的明确反馈。你没有这个问题 - 你有直接归因于行动的直接奖励。

基本的监督学习方法可以很好地解决这个问题，没有理由涉及强化学习“机器”。

【讨论】：

感谢您的回答。我正在分析的方法（仅出于教育目的）是监督学习，在它为目标射击后，我反向传播球和目标的距离（假设我反向传播了 RL 中的奖励）。我想最小化的这个距离将作为损失。您认为这是一种有效的方法吗？

【解决方案2】：

在情景 RL 中没有下一个状态，它只是黑盒 (BB) 优化。你的情况是contextual BB，因为你也有一个状态（我猜是球的位置）。您可以使用策略梯度（如NES 或PGPE）、策略搜索（here 是一个很好的调查）、进化（CMA-ES）或混合。它们在更新的执行方式上有所不同，但它们都与奖励无关，即它们不知道奖励函数，而只是接收奖励值。

他们都共享相同的方法：

您有一个初始策略（也称为搜索分发），
查看特征并将它们提供给策略，这将为您提供“动作”（在您的情况下：绘制机器人的控制参数，然后射击），
查看奖励，
重复并收集数据(features, action, reward)，
更新政策，直到您了解能够始终在任何位置击球的机器人控制器。

编辑

由于您没有下一个状态，因此您的问题有点像回归问题，但您不知道最佳目标（最佳动作 = 最佳机器人控制器）。相反，您绘制一些目标并慢慢适应最佳目标（慢慢地，就像梯度下降一样，因为可能还有更好的目标需要探索）。

【讨论】：

感谢您的出色回答。我正在考虑使用DDPG，但我在实施中遇到了一些麻烦，所以我会研究你建议的方法。一个问题：这些方法能够给出连续的动作（镜头的角度），还是用于离散空间？
它们适用于离散和连续空间。使用 DDPG 没有意义，因为您没有下一个状态，因此您没有 TD 错误delta = Q(s',a') + gamma*r - Q(s,a)。我已经编辑了我的答案以添加一些细节。

【解决方案3】：

如果我正确理解了您的问题，那么您所描述的问题在文献中被称为 Contextual Bandits。在这种情况下，您有一组状态，并且代理在执行一个操作后会收到奖励。这些问题与强化学习密切相关，但它们具有一些特殊的特征，可用于设计特定的算法。

下图摘自Arthur Juliani's post，显示了多臂强盗、上下文强盗和强化学习问题之间的主要区别：

【讨论】：

这正是我所描述的用例。感谢您指出这一点，我不知道这个问题在文献中是如何描述的。
不客气！是的，文献很多，有时很难找到正确的“关键词”。顺便说一句，如果这回答了您的问题，请不要忘记接受回复。