【问题标题】:Formulation of a reward structure奖励结构的制定
【发布时间】:2020-03-21 17:55:03
【问题描述】:

我是强化学习和 RL 代理训练实验的新手。

我对奖励公式有疑问,从给定的状态来看,如果代理采取了好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我在代理采取好的行动时给予非常高的正奖励,例如正值是负奖励的 100 倍,它会在训练期间帮助代理吗?

直觉上我觉得,这会有助于智能体的训练,但是这种倾斜的奖励结构会有什么弊端吗?

【问题讨论】:

    标签: artificial-intelligence reinforcement-learning montecarlo reward dqn


    【解决方案1】:

    嗯,一般来说,我(基于我的经验的个人意见)认为奖励应该与它对代理的影响有关。如果问题是奖励稀少,您可以查看此Arxiv Insights Youtube 以了解如何解决。

    我可以举一个可能具有挑战性的例子:如果奖励比坏奖励更积极,那么代理可能不会太在意,如果它冒着最终获得负奖励的状态来获得大正奖励。所以你最终可能会遇到一个有风险的代理。

    【讨论】: