强化学习、Q 学习以确定最佳施法顺序？答案

【问题标题】：Reinforcement learning, Q-learning to determine order to cast spells optimally?强化学习、Q 学习以确定最佳施法顺序？
【发布时间】：2020-05-19 14:15:56
【问题描述】：

如果我有一个法师，他有 20 个法术，每个法术都有不同的作用，有时是直接伤害，有时是禁用，有时是保护等。他与 10 个兽人打架，我想确定最佳施法顺序尽快杀死兽人。

Q 学习对解决这个问题有帮助吗？

我可以从 20 个咒语的初始状态开始，然后每个后续状态将是我剩下的咒语，最终状态将是巫师或兽人死亡。这是否有意义，还是我试图使用错误的 AI 算法来完成这项工作？

【问题讨论】：

一个法术以前用过，能不能再用一次？
让我们对这个例子说不
请在Artificial Intelligence Stack Exchange 上提出这个问题。如果您这样做，请从此处删除问题。

标签： artificial-intelligence reinforcement-learning q-learning

【解决方案1】：

我觉得不错。您正在寻找改变状态的动作轨迹。 IE。您的玩家和兽人的健康状况，以使您获得特定状态发生的奖励。 IE。杀死兽人。

【讨论】：