为什么环境状态是马尔可夫？答案

【问题标题】：Why is the environment state markov?为什么环境状态是马尔可夫？
【发布时间】：2016-05-26 10:33:49
【问题描述】：

我有一个关于强化学习的问题，为什么环境状态是马尔科夫？我在某处读到它的定义，但我不明白环境状态的定义如何暗示它是马尔可夫。

【问题讨论】：

【解决方案1】：

不一定，但一般来说，强化学习算法假定您提供马尔可夫状态。

来自强化学习：简介的第 3.5 章：

理想情况下，我们想要的是一个状态信号，它可以紧凑地总结过去的感觉，但要保留所有相关信息。这通常需要的不仅仅是直接的感觉，但永远不会超过所有过去感觉的完整历史。成功保留所有相关信息的状态信号称为马尔可夫，或具有马尔可夫性质（我们在下面正式定义）。

当然，您永远不可能提供完美的马尔可夫状态表示并实际学习。

马尔可夫属性在强化学习中很重要，因为决策和值被假定为仅是当前状态的函数。为了使这些内容有效且提供信息，州代表必须提供信息。这意味着并非所有理论都严格适用于马尔可夫性质不严格适用的情况。但是，针对马尔可夫情况开发的理论仍然有助于我们理解算法的行为，并且算法可以成功地应用于许多非严格马尔可夫状态的任务。

【讨论】：

谢谢，可以从环境的角度来说明。在环境的情况下，我怀疑我们无法控制状态的定义。
我想我明白你在问什么。你说得对，我们不能真正改变环境工作的方式，但我们可以改变代理看到它的方式。所以，我们不能改变 state，但我们可以改变 state signal，这是 agent 从中学习的。该信号可以是状态的任何表示形式，可以是设计人员所需的信息，也可以是尽可能少的信息。这将在 3.1 代理环境接口中讨论。我在解决您的问题上是否正确？