【问题标题】:Reinforcement Learning: The dilemma of choosing discretization steps and performance metrics for continuous action and continuous state space强化学习:为连续动作和连续状态空间选择离散化步骤和性能指标的困境
【发布时间】:2016-07-28 03:03:24
【问题描述】:

我正在尝试为控制系统编写自适应控制器,即使用 Q-learning 的电源管理系统。我最近为推车杆系统实施了一个玩具 RL 问题,并根据 Andrew NG 的笔记制定了直升机控制问题的公式。我很欣赏在这种情况下价值函数逼近的必要性。然而,这两个流行的例子都有非常少的可能的离散动作。我有三个问题:

1) 如果您没有少量离散操作,那么处理此类问题的正确方法是什么?我的行为和状态的维度似乎已经爆炸,学习看起来很糟糕,这让我想到了下一个问题。

2) 我如何衡量我的代理的表现?由于奖励会随着动态环境的变化而变化,因此我无法在每个时间步确定我的连续 RL 代理的性能指标。与网格世界问题不同的是,由于状态-动作对庞大,我无法检查 Q 值表,我怎么知道我的动作是最优的?

3) 因为我有一个状态随时间演变的模型。状态 = [Y, U]。 Y[t+1] = aY[t] + bA,其中 A 是一个动作。 为动作 A 选择离散化步骤也会影响我必须对状态变量 Y 进行离散化的精细程度。如何选择离散化步骤? 非常感谢!

【问题讨论】:

    标签: machine-learning artificial-intelligence reinforcement-learning


    【解决方案1】:

    您可以使用连续动作强化学习算法并完全避免离散化问题。我建议你看看CACLA。 至于性能,您需要在关闭学习的情况下测量代理在剧集中的累积奖励。由于您的环境是随机的,因此请进行多次测量并对它们进行平均。

    【讨论】:

      【解决方案2】:

      查看策略搜索算法。基本上,他们直接学习了一个没有显式值函数的参数化策略,从而避免了逼近 Q 函数的连续动作问题(例如,不需要对动作空间进行离散化)。

      最简单和最早的策略搜索算法之一是策略梯度。查看here 以获取有关该主题的快速调查。和here 进行关于策略搜索的调查(目前,有更新的技术,但这是一个很好的起点)。 在控制问题的情况下,您可以查看一个非常简单的玩具任务,Linear Quadratic Gaussian Regulator (LQG)Here您可以找到包含此示例的讲座以及策略搜索和策略梯度的介绍。

      关于您的第二点,如果您的环境是动态的(即转换函数(或两者)的奖励函数随时间变化),那么您需要查看非平稳策略。这通常是 RL 中更具挑战性的问题。

      【讨论】:

        猜你喜欢
        • 2019-05-31
        • 1970-01-01
        • 1970-01-01
        • 2011-10-29
        • 2012-07-26
        • 1970-01-01
        • 2018-09-23
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多