强化学习与运筹学答案

【问题标题】：Reinforcement Learning vs Operations Research强化学习与运筹学
【发布时间】：2019-01-18 02:50:37
【问题描述】：

我想知道什么时候会决定使用强化学习来解决以前通过数学优化方法解决的问题 - 想想旅行推销员问题或工作调度或出租车共享问题。

由于强化学习旨在最小化/最大化某个成本/奖励函数，就像运筹学试图优化某个成本函数的结果一样，我认为可以由两方之一解决的问题可能会被对方解决。然而，真的是这样吗？两者之间有权衡吗？关于上述问题，我还没有真正看到太多关于 RL 的研究，但我可能弄错了。

如果有人有任何见解，将不胜感激！！

【问题讨论】：

我想补充一点，强化学习在运筹学界通常被称为近似动态规划（或多或少，当然可能存在差异）。这是有道理的，因为整个 RL 的“炒作”实际上是一个（在某些应用程序中非常好的）工具箱，用于启发式地解决随机动态程序。到目前为止，用于解决传统 OR 问题（如 TSP）的 RL 方法还不是很成功。或者换句话说，运筹学在解决此类问题方面非常出色，而 RL（到目前为止）只是中等水平。

【解决方案1】：

这是我的两分钱。我认为虽然这两种近似都有一个共同的目标（最佳决策），但它们的基本工作原理是不同的。本质上，强化学习是一种数据驱动的方法，其中优化过程是通过代理与环境的交互（即数据）来实现的。另一方面，优化研究使用其他需要更深入地了解问题和/或施加更多假设的方法。

有很多问题，尤其是学术问题或玩具问题，都可以应用近似值，RL 和 OR。在现实世界的应用中，我猜如果你能满足 OR 要求的所有假设，RL 就不会取得更好的结果。不幸的是，情况并非总是如此，因此 RL 在这种情况下更有用。

但是请注意，有些方法不清楚 RL 和 OR 之间的区别。

【讨论】：

【解决方案2】：

Pablo 提供了很好的解释。我的研究实际上是强化学习与模型预测控制。而MPC是一种基于轨迹优化的控制方法。强化学习只是一种数据驱动的优化算法，可用于您的上述示例。这是traveling salesman problem 使用 RL 的论文。

最大的不同在于：

强化学习方法

不需要模型，而是一个“游乐场”，可以在环境中尝试不同的操作并从中学习（即数据驱动方法）
由于状态到动作的非线性映射，不保证复杂问题的最优性。在多输入多输出问题中，RL 使用非线性函数逼近器来解决任务。但是在使用它们的那一刻并不能保证收敛
非常适合难以或不可能为其推导模型的问题。
极难训练，但在线计算便宜
固有的适应性。如果环境条件发生变化，RL 通常可以通过学习新环境来适应。
最糟糕的是，RL 做出的决定是无法解释的。先进的 RL 算法由多个神经网络组成，因此，如果我们的 RL 汽车驾驶员从悬崖上驶下，几乎不可能确定它为什么会这样做。

优化方法

性能取决于型号。如果模型不好，优化会很糟糕。
由于性能取决于模型，因此识别“完美”模型的成本非常高。在能源行业，这样一个工厂的模型要花费数百万美元，尤其是因为运行条件会随着时间而变化。
保证最优性。已发表的许多论文证明了这些方法保证了稳健性、可行性和稳定性。
易于解释。使用优化方法的控制和决策很容易解释，因为您可以进入模型并计算执行特定操作的原因。在 RL 案例中，这通常是一个神经网络，完全是一个黑盒子。因此，对于安全敏感问题，目前很少使用 RL。
非常昂贵的在线计算取决于预测范围，因为在每个时间步，我们必须根据当前状态优化轨迹。

【讨论】：