【发布时间】:2016-05-26 10:33:49
【问题描述】:
我有一个关于强化学习的问题,为什么环境状态是马尔科夫?我在某处读到它的定义,但我不明白环境状态的定义如何暗示它是马尔可夫。
【问题讨论】:
标签: reinforcement-learning markov
我有一个关于强化学习的问题,为什么环境状态是马尔科夫?我在某处读到它的定义,但我不明白环境状态的定义如何暗示它是马尔可夫。
【问题讨论】:
标签: reinforcement-learning markov
不一定,但一般来说,强化学习算法假定您提供马尔可夫状态。
来自强化学习:简介的第 3.5 章:
理想情况下,我们想要的是一个状态信号,它可以紧凑地总结过去的感觉,但要保留所有相关信息。这通常需要的不仅仅是直接的感觉,但永远不会超过所有过去感觉的完整历史。成功保留所有相关信息的状态信号称为马尔可夫,或具有马尔可夫性质(我们在下面正式定义)。
当然,您永远不可能提供完美的马尔可夫状态表示并实际学习。
马尔可夫属性在强化学习中很重要,因为决策和值被假定为仅是当前状态的函数。为了使这些内容有效且提供信息,州代表必须提供信息。这意味着并非所有理论都严格适用于马尔可夫性质不严格适用的情况。但是,针对马尔可夫情况开发的理论仍然有助于我们理解算法的行为,并且算法可以成功地应用于许多非严格马尔可夫状态的任务。
【讨论】: