【发布时间】:2025-12-10 11:35:01
【问题描述】:
我有一个元组作为我的观察空间,每个项目对应于该空间的一个动作。
想想一个带有按钮的长面板,它可以有多个离散值,我可以切换其中的任何一个。如果面板有 10 个项目,那么我的操作空间是
self.action_space = space.Discrete(10)
我想要做的是简化我的观察空间,以便我可以提供我的离散值列表。我该如何定义?
PS:我的观察空间目前是一个包含 10 个值(分类)的列表,每个值在其空间内都是不同的。例如,第一个只能取 A 和 B,第二个只能取 C 和 D,以此类推。
【问题讨论】:
标签: reinforcement-learning openai-gym