强化学习中的状态依赖动作集答案

【问题标题】：State dependent action set in reinforcement learning强化学习中的状态依赖动作集
【发布时间】：2018-04-25 00:07:08
【问题描述】：

人们如何处理不同州法律行为不同的问题？在我的情况下，我总共有大约 10 项行动，法律行动不重叠，这意味着在某些州，相同的 3 个州始终是合法的，而这些州在其他类型的州中永远不合法。

我还想看看如果法律行动重叠，解决方案是否会有所不同。

对于 Q 学习（我的网络为我提供状态/动作对的值），我在想也许我可以在构建目标值时小心选择哪个 Q 值。（即我不选择最大值，而是选择法律行为中的最大值......）

对于策略梯度类型的方法，我不太确定合适的设置是什么。计算损失时只屏蔽输出层可以吗？

【问题讨论】：

【解决方案1】：

近两年有两部密切相关的作品：

[1] 布蒂利埃、克雷格等人。 “使用随机动作集进行规划和学习。” arXiv 预印本 arXiv:1805.02363 (2018)。

[2] 钱达克、亚什等人。 “当所有操作都不总是可用时的强化学习。” AAAI。 2020.

【讨论】：

【解决方案2】：

目前，这个问题似乎没有一个通用且直截了当的答案。也许是因为这不是问题？

您为法律行动选择最佳 Q 值的建议实际上是处理此问题的建议方法之一。对于策略梯度方法，您可以通过屏蔽非法操作并适当扩大其他操作的概率来获得类似的结果。

其他方法是对选择非法行为给予负面奖励 - 或者忽略选择而不对环境进行任何改变，返回与以前相同的奖励。对于我的个人经验之一（Q 学习方法），我选择了后者，并且代理学习了他必须学习的内容，但他不时将非法行为用作“无行为”行为。这对我来说并不是什么问题，但负奖励可能会消除这种行为。

如您所见，当操作“重叠”时，这些解决方案不会改变或不同。

回答您在 cmets 中提出的问题 - 我认为您无法在不了解合法/非法行为规则的情况下在所描述的条件下训练代理。例如，这需要为每组法律行动设置单独的网络，这听起来不是最好的主意（特别是如果有很多可能的法律行动组）。

但是学习这些规则很难吗？

您必须自己回答一些问题 - 是否存在使行为非法、难以表达/清晰表达的条件？ 当然，这是特定于环境的，但我会说它大多数时候表达起来并不难，代理只是在训练期间学习它们。如果很难，您的环境是否提供了有关状态的足够信息？

【讨论】：

【解决方案3】：

不确定我是否正确理解了您的问题，但如果您的意思是在某些状态下某些操作是不可能的，那么您只需将其反映在奖励函数中（大负值）。如果不清楚非法操作会导致什么状态，您甚至可以决定结束这一集。然后代理应该知道这些操作在特定状态下是不可取的。

在探索模式下，代理可能仍会选择采取非法行动。但是，在利用模式下应该避免它们。

【讨论】：

【解决方案4】：

我最近为 connect-4 构建了一个 DDQ 代理，并且必须解决这个问题。只要选择一个已经满满的令牌的列，我将相当于失去游戏的奖励。就我而言，这是 -100，效果很好。

在连接四中，允许非法移动（有效地跳过一个回合）在某些情况下可能对玩家有利。这就是为什么我将奖励设置为等于失败而不是较小的负数。

因此，如果您将负面奖励设置为大于失败，则您必须考虑在您的领域中允许非法移动在探索中发生的影响。

【讨论】：