【发布时间】:2018-04-25 00:07:08
【问题描述】:
人们如何处理不同州法律行为不同的问题?在我的情况下,我总共有大约 10 项行动,法律行动不重叠,这意味着在某些州,相同的 3 个州始终是合法的,而这些州在其他类型的州中永远不合法。
我还想看看如果法律行动重叠,解决方案是否会有所不同。
对于 Q 学习(我的网络为我提供状态/动作对的值),我在想也许我可以在构建目标值时小心选择哪个 Q 值。 (即我不选择最大值,而是选择法律行为中的最大值......)
对于策略梯度类型的方法,我不太确定合适的设置是什么。计算损失时只屏蔽输出层可以吗?
【问题讨论】:
标签: machine-learning reinforcement-learning q-learning