【发布时间】:2021-03-02 15:15:17
【问题描述】:
下面是我的代理应该是什么样子的高级图表,以便能够与我制作的自定义健身房环境进行交互。
状态和动作
环境有三个状态[s1,s2,s3]和六个动作[a1,a2,a3,a4,a5,a6] 状态和动作可以是 0 到 1 之间的任何值
问题:
哪些算法适合我的问题?我知道有些算法擅长处理连续动作空间,例如(DDPG、PPO 等),但是当它们在每个时间步输出多个动作时,我看不出它们会如何操作。 最后,是否有任何健身房环境具有所描述的属性(多个动作),是否有任何 python 实现来解决这些特定环境?
【问题讨论】:
标签: python-3.x reinforcement-learning openai-gym