【发布时间】:2016-09-19 02:18:04
【问题描述】:
在强化学习中,策略迭代和价值迭代有什么区别?
据我所知,在价值迭代中,您使用贝尔曼方程来求解最优策略,而在策略迭代中,您随机选择一个策略 π,并找到该策略的奖励。
我的疑问是,如果您在 PI 中选择一个随机策略 π,即使我们选择多个随机策略,如何保证它是最优策略。
【问题讨论】:
-
在ai.stackexchange.com、stats.stackexchange.com 或datascience.stackexchange.com 等网站上问这个问题会更合适。
标签: machine-learning reinforcement-learning markov-models value-iteration