【发布时间】:2020-05-25 11:57:45
【问题描述】:
如果 DQN 中的状态值只需要为 0 到 1,例如 状态 = [0, 0, 0, 1, 1, 1, 1, 0, 1, 0]
或者它可以有一个值大于 1 eh 的状态 状态 = [6, 5, 4, 1, 1, 1, 2, 3, 15, 10]
【问题讨论】:
-
国家的价值从来没有受到限制,你问这个是什么意思?
标签: python deep-learning reinforcement-learning q-learning dqn