【发布时间】:2019-01-18 02:50:37
【问题描述】:
我想知道什么时候会决定使用强化学习来解决以前通过数学优化方法解决的问题 - 想想旅行推销员问题或工作调度或出租车共享问题。
由于强化学习旨在最小化/最大化某个成本/奖励函数,就像运筹学试图优化某个成本函数的结果一样,我认为可以由两方之一解决的问题可能会被对方解决。然而,真的是这样吗?两者之间有权衡吗?关于上述问题,我还没有真正看到太多关于 RL 的研究,但我可能弄错了。
如果有人有任何见解,将不胜感激!!
【问题讨论】:
-
我想补充一点,强化学习在运筹学界通常被称为近似动态规划(或多或少,当然可能存在差异)。这是有道理的,因为整个 RL 的“炒作”实际上是一个(在某些应用程序中非常好的)工具箱,用于启发式地解决随机动态程序。到目前为止,用于解决传统 OR 问题(如 TSP)的 RL 方法还不是很成功。或者换句话说,运筹学在解决此类问题方面非常出色,而 RL(到目前为止)只是中等水平。
标签: optimization mathematical-optimization reinforcement-learning operations-research