【发布时间】:2014-01-15 12:32:23
【问题描述】:
我正在考虑在我的模型中为不同类型的代理实施学习策略。老实说,我仍然不知道我应该先问什么样的问题或从哪里开始。
我有两种类型的代理,我希望他们通过经验来学习,它们有一个动作池,根据可能发生的特定情况,每个动作都有不同的奖励。 我是强化学习方法的新手,因此欢迎任何关于我应该问自己什么样的问题的建议:)
以下是我将如何阐述我的问题:
- 代理人有生命周期,他们会跟踪一些对他们来说很重要的事情,这些指标对于不同的代理人来说是不同的,例如,一个代理人想要增加 A,另一位代理人想要 B 而不是 A。
- 状态是代理生命周期中的点,它们 有多个选择(我没有明确的定义 状态,因为它们可能会发生几次或根本不会发生,因为 代理人四处走动,他们可能永远不会遇到任何情况)
- 奖励是代理可以从特定状态下的操作中获得的指标的增加或减少,代理不知道如果他选择另一个操作会获得什么收益。
- 增益不是恒定的,状态没有很好的定义,也没有从一种状态到另一种状态的正式转换,
- 例如,代理可以决定与同地代理之一(操作 1)或与同一位置的所有代理(操作 2)共享 如果某些条件成立,则操作 A 对该代理的回报更大,而在其他情况下,Action 2 会有更高的奖励;我的问题是我没有看到任何奖励未知的示例,因为在这种情况下共享还取决于其他代理的特征(这会影响奖励系统的条件),并且在不同的状态下会有所不同。
在我的模型中,动作和后续状态之间没有关系,这让我想知道在这种情况下是否可以考虑 RL。
我希望在这里优化的是我的代理能够以更好的方式推理当前情况,而不仅仅是响应由其内部状态触发的需求。他们有一些个性可以定义他们的长期目标,并且可以影响他们在不同情况下的决策,但我希望他们记住在某种情况下采取哪些行动帮助他们提高了他们首选的长期目标。
【问题讨论】:
标签: netlogo reinforcement-learning agent-based-modeling q-learning