【发布时间】:2016-07-28 03:03:24
【问题描述】:
我正在尝试为控制系统编写自适应控制器,即使用 Q-learning 的电源管理系统。我最近为推车杆系统实施了一个玩具 RL 问题,并根据 Andrew NG 的笔记制定了直升机控制问题的公式。我很欣赏在这种情况下价值函数逼近的必要性。然而,这两个流行的例子都有非常少的可能的离散动作。我有三个问题:
1) 如果您没有少量离散操作,那么处理此类问题的正确方法是什么?我的行为和状态的维度似乎已经爆炸,学习看起来很糟糕,这让我想到了下一个问题。
2) 我如何衡量我的代理的表现?由于奖励会随着动态环境的变化而变化,因此我无法在每个时间步确定我的连续 RL 代理的性能指标。与网格世界问题不同的是,由于状态-动作对庞大,我无法检查 Q 值表,我怎么知道我的动作是最优的?
3) 因为我有一个状态随时间演变的模型。状态 = [Y, U]。 Y[t+1] = aY[t] + bA,其中 A 是一个动作。 为动作 A 选择离散化步骤也会影响我必须对状态变量 Y 进行离散化的精细程度。如何选择离散化步骤? 非常感谢!
【问题讨论】:
标签: machine-learning artificial-intelligence reinforcement-learning