强化学习：为连续动作和连续状态空间选择离散化步骤和性能指标的困境答案

【问题标题】：Reinforcement Learning: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space强化学习：为连续动作和连续状态空间选择离散化步骤和性能指标的困境
【发布时间】：2016-07-28 03:03:24
【问题描述】：

我正在尝试为控制系统编写自适应控制器，即使用 Q-learning 的电源管理系统。我最近为推车杆系统实施了一个玩具 RL 问题，并根据 Andrew NG 的笔记制定了直升机控制问题的公式。我很欣赏在这种情况下价值函数逼近的必要性。然而，这两个流行的例子都有非常少的可能的离散动作。我有三个问题：

1) 如果您没有少量离散操作，那么处理此类问题的正确方法是什么？我的行为和状态的维度似乎已经爆炸，学习看起来很糟糕，这让我想到了下一个问题。

2) 我如何衡量我的代理的表现？由于奖励会随着动态环境的变化而变化，因此我无法在每个时间步确定我的连续 RL 代理的性能指标。与网格世界问题不同的是，由于状态-动作对庞大，我无法检查 Q 值表，我怎么知道我的动作是最优的？

3) 因为我有一个状态随时间演变的模型。状态 = [Y, U]。 Y[t+1] = aY[t] + bA，其中 A 是一个动作。为动作 A 选择离散化步骤也会影响我必须对状态变量 Y 进行离散化的精细程度。如何选择离散化步骤？非常感谢！

【问题讨论】：

标签： machine-learning artificial-intelligence reinforcement-learning

【解决方案1】：

您可以使用连续动作强化学习算法并完全避免离散化问题。我建议你看看CACLA。至于性能，您需要在关闭学习的情况下测量代理在剧集中的累积奖励。由于您的环境是随机的，因此请进行多次测量并对它们进行平均。

【讨论】：

【解决方案2】：

查看策略搜索算法。基本上，他们直接学习了一个没有显式值函数的参数化策略，从而避免了逼近 Q 函数的连续动作问题（例如，不需要对动作空间进行离散化）。

最简单和最早的策略搜索算法之一是策略梯度。查看here 以获取有关该主题的快速调查。和here 进行关于策略搜索的调查（目前，有更新的技术，但这是一个很好的起点）。在控制问题的情况下，您可以查看一个非常简单的玩具任务，Linear Quadratic Gaussian Regulator (LQG)。 Here您可以找到包含此示例的讲座以及策略搜索和策略梯度的介绍。

关于您的第二点，如果您的环境是动态的（即转换函数（或两者）的奖励函数随时间变化），那么您需要查看非平稳策略。这通常是 RL 中更具挑战性的问题。

【讨论】：