【发布时间】:2020-03-21 17:55:03
【问题描述】:
我是强化学习和 RL 代理训练实验的新手。
我对奖励公式有疑问,从给定的状态来看,如果代理采取了好的行动,我会给予积极的奖励,如果行动不好,我会给予消极的奖励。因此,如果我在代理采取好的行动时给予非常高的正奖励,例如正值是负奖励的 100 倍,它会在训练期间帮助代理吗?
直觉上我觉得,这会有助于智能体的训练,但是这种倾斜的奖励结构会有什么弊端吗?
【问题讨论】:
标签: artificial-intelligence reinforcement-learning montecarlo reward dqn