【发布时间】:2018-10-15 07:52:21
【问题描述】:
我正在尝试根据 Karpathy 的 RL tutorial 为游戏 2048 实施策略网络代理。我知道算法需要玩一些游戏,记住输入和采取的行动,标准化和平均中心结束分数。但是,我陷入了损失函数的设计。如何正确鼓励最终得分较高的行为并阻止最终得分较低的行为?
在输出层使用 softmax 时,我设计了一些东西:
loss = sum((action - net_output) * reward)
动作是一种热门格式。但是,这种损失似乎没有多大作用,网络没有学习。我在 PyTorch 中的完整代码(没有游戏环境)是here。
【问题讨论】:
标签: neural-network artificial-intelligence pytorch reinforcement-learning game-ai