【发布时间】:2017-06-21 17:29:52
【问题描述】:
我的意思是国际象棋、国际象棋、井字游戏、2048 年、超级马里奥等游戏,在一般游戏中需要多次下棋、移动才能完成。
我很确定可以使用遗传算法,但我很想知道是否有一种方法可以通过纯反向传播来训练它。我会使用什么作为目标值?
我在考虑让他玩一些动作直到游戏结束并使用最终结果作为目标值,但我认为这只会训练最后一个动作,不是吗?
另一种方法是训练每一个动作,但目标值是多少?你可以有多个有效的选择,但从长远来看,肯定有一个更好。如何在不经过我反复试验的情况下选择它?
Backprop 就不能实现吗?
【问题讨论】:
标签: neural-network backpropagation