【问题标题】:Q-learning with 2D actions and 2D states具有 2D 动作和 2D 状态的 Q 学习
【发布时间】:2025-11-30 19:50:01
【问题描述】:

我的问题如下:

代理应该在每个状态下,调整电厂锅炉的水流和风扇速度,以接收双重状态的反馈:当前温度,排放量。

如果我的智能体有一个动作元组和一个状态元组,这是否意味着我应该将我的 q 学习问题分成 2 个,其中一个智能体将有一个用于水/温度环境的 Q 和 R 矩阵,另一个智能体对于风扇转速/排放量的环境?或者有没有办法为最初描述的代理表示一个 R 和 Q 矩阵?

【问题讨论】:

  • 一切都是为了奖励。这意味着您必须建立一个包含两个术语(温度和排放)的奖励。由于这些可能相互冲突,您需要定义一些模型(如在多目标优化中)。您必须控制其中哪些对您来说有多重要/哪种 temp/em 解决方案比其他解决方案更受欢迎。拥有多维状态并不少见,这意味着您的 Q 函数有多个输入。

标签: machine-learning tensorflow artificial-intelligence reinforcement-learning


【解决方案1】:

状态和动作是多维的是正常的。您所做的是让您的代理了解当前温度和排放量的所有组合的水流和风扇速度的所有组合的值。如果这使表格变得笨拙,那么您将需要对其进行近似,这本身就是一个完整的字段。

【讨论】:

  • 那么在我的问题中,我将有一个 40 x 40 的 q 矩阵。我怎么知道它笨重?用简单的 NN 逼近 Q 是否会提高效率?
  • @Leb_Broth,试试看。如果必须使用近似值,我会在求助于神经网络之前尝试粗编码和线性函数近似。