【发布时间】:2019-05-12 20:51:58
【问题描述】:
我训练了“Humanoid-v2”(https://github.com/openai/gym/wiki/Humanoid-V1) 走路。训练期间奖励会增加。但是,我还需要一个性能矩阵来告诉我代理走了多远?
此代理 (https://github.com/openai/gym/wiki/Humanoid-V1) 有 376 次观察。 代理的XML文件第27行中提到的位置x、y、z分别对应哪些值:https://github.com/openai/gym/blob/master/gym/envs/mujoco/assets/humanoid.xml#L27?
谢谢
【问题讨论】:
标签: xml reinforcement-learning openai-gym