【发布时间】:2019-09-18 20:42:21
【问题描述】:
问题1: 我们想从 s 到 e。在每个单元格中,我们可以向右 R 或向下 D 移动。环境是完全已知的。该表有 (4*5) 20 个单元格。挑战在于我们不知道每个单元格的奖励是什么,但是当我们通过并完成一条路径时,我们将获得整体奖励。 示例:一个解决方案可以是 RRDDRDR,总奖励是 16。
s 3 5 1 5
1 2 4 5 1
7 3 1 2 8
9 2 1 1 e
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励?
问题2: 这个问题与问题1相同,但问题环境的奖励是动态的,因此我们到达细胞的方式会影响前面细胞的奖励。 示例:对于 RRD 和 DRR 的两次移动,两者都会将我们带到同一个单元格,但由于它们具有不同的路径,因此前面的单元格将获得不同的奖励。
s 3 5 1 5
1 2 4 9 -1
7 3 2 -5 18
9 2 9 7 e
(RRD路径,选择这条路径会导致前方细胞的奖励发生变化)
s 3 5 1 5
1 2 4 3 1
7 3 30 7 -8
9 2 40 11 e
(DRR路径,选择这条路径会导致前方细胞的奖励发生变化)
目标是找到一组从开始到结束的动作,从而最大化获得的整体奖励。我们如何在动作之间分配整体奖励? (经过一条从起点到终点的路径,获得整体奖励)
【问题讨论】:
标签: reward