【发布时间】:2019-07-19 02:46:11
【问题描述】:
我的问题与强化学习的实现无关,而是要理解每个状态都是终端状态时 RL 的概念。
我举个例子:一个机器人正在学习踢足球,只是射击。奖励是球射门后与球门柱之间的距离。状态是多个特征的数组,动作是具有三维力的数组。
如果我们考虑情节强化学习,我觉得这种方法没有意义。确实,机器人射击并给予奖励:每一集都是最后一集。将下一个状态传递给系统是没有意义的,因为算法并不关心它来优化奖励——在这种情况下,我将使用 Actor-Critic 方法来处理连续状态和动作空间。有人可能会争辩说,一种不同的监督学习方法,例如深度神经网络,可能效果更好。但我不确定,因为在这种情况下,该算法将无法在远离训练集的输入中取得良好的结果。据我所见,RL 能够更好地泛化这种情况。
问题是:RL 是解决这个问题的有效方法,在这种情况下如何管理终端状态?你知道文献中有类似的例子吗?
【问题讨论】:
-
您好,您有没有找到合适的算法来解决它?我有一个完全相同的问题。如果您对解决方案有更多信息,我们将不胜感激
-
@corvo 正如其他用户所说,RL 试图解决这个特定设置没有的问题:奖励归因。如果每个状态都是最终状态,那么学习将状态映射到动作以最大化累积预期奖励的策略是没有意义的,因为累积预期奖励只是情节奖励。
-
是的,一定是因为不能使用RL。您还有其他推荐算法吗?
标签: machine-learning reinforcement-learning