【问题标题】:Reward distribution Reinforcement Learning奖励分配强化学习
【发布时间】:2019-09-18 20:42:21
【问题描述】:

问题1: 我们想从 s 到 e。在每个单元格中,我们可以向右 R 或向下 D 移动。环境是完全已知的。该表有 (4*5) 20 个单元格。挑战在于我们不知道每个单元格的奖励是什么,但是当我们通过并完成一条路径时,我们将获得整体奖励。 示例:一个解决方案可以是 RRDDRDR,总奖励是 16。

s 3 5 1 5

1 2 4 5 1

7 3 1 2 8

9 2 1 1 e

目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?

问题2: 这个问题与问题1相同,但问题环境的奖励是动态的,因此我们到达细胞的方式会影响前面细胞的奖励。 示例:对于 RRD 和 DRR 的两次移动,两者都会将我们带到同一个单元格,但由于它们具有不同的路径,因此前面的单元格将获得不同的奖励。

s 3 5 1 5

1 2 4 9 -1

7 3 2 -5 18

9 2 9 7 e

(RRD路径,选择这条路径会导致前方细胞的奖励发生变化)

s 3 5 1 5

1 2 4 3 1

7 3 30 7 -8

9 2 40 11 e

(DRR路径,选择这条路径会导致前方细胞的奖励发生变化)

目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励? (经过一条从起点到终点的路径,获得整体奖励)

【问题讨论】:

    标签: reward


    【解决方案1】:

    您能详细介绍一下您正在进行的研究吗? (这个问题听起来很像某人为了让你考虑临时信用分配而分配的那种东西。)

    【讨论】:

    • 这更像是一个评论而不是一个答案。
    • 啊,我同意。我是新来的。那我可以更改“答案”的状态吗?
    • 更准确地说,我正在研究遗传编程,我想通过强化学习制作一个结构良好的树。由于一棵树由节点(作为状态)和输入(动作)组成,并且树的适应度作为我的整体奖励或增益,我想通过利用整体奖励来构建这样一棵树,并将其分布在动作和状态之间以为每个状态(节点)找到最佳动作(函数或变量或终端)。
    猜你喜欢
    • 2021-07-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-21
    • 2018-07-17
    • 1970-01-01
    • 2011-07-30
    相关资源
    最近更新 更多