奖励结构的制定

【问题标题】：Formulation of a reward structure奖励结构的制定
【发布时间】：2020-03-21 17:55:03
【问题描述】：

我是强化学习和 RL 代理训练实验的新手。

我对奖励公式有疑问，从给定的状态来看，如果代理采取了好的行动，我会给予积极的奖励，如果行动不好，我会给予消极的奖励。因此，如果我在代理采取好的行动时给予非常高的正奖励，例如正值是负奖励的 100 倍，它会在训练期间帮助代理吗？

直觉上我觉得，这会有助于智能体的训练，但是这种倾斜的奖励结构会有什么弊端吗？

【问题讨论】：

【解决方案1】：

嗯，一般来说，我（基于我的经验的个人意见）认为奖励应该与它对代理的影响有关。如果问题是奖励稀少，您可以查看此Arxiv Insights Youtube 以了解如何解决。

我可以举一个可能具有挑战性的例子：如果奖励比坏奖励更积极，那么代理可能不会太在意，如果它冒着最终获得负奖励的状态来获得大正奖励。所以你最终可能会遇到一个有风险的代理。

【讨论】：