游戏的人工智能反向传播[关闭]答案

【问题标题】：AI backpropagation for a game [closed]游戏的人工智能反向传播[关闭]
【发布时间】：2020-01-24 12:24:03
【问题描述】：

这个问题没有代码示例，我正在寻找如何做到这一点的方法。

想象一个神经网络试图学习一个游戏，它有 4 个可能的输出（它可以做的动作）。

如果其他玩家在神经网络的（坏）移动后获胜或获得优势，您可能需要进行反向传播以教它不要进行此移动。因此，您希望将数据 [?, 0, ?, ?] 输入到成本函数中。 ...但是因为任何其他动作可能没问题或可能不是我没有为其他动作输入的值。 [1, 0, 1, 1] 不是我想要的。

如何仅对 1 个输出进行反向传播？ DeepLearning4J 是否适合这种情况？

感谢您的帮助！

【问题讨论】：

【解决方案1】：

您正在寻找的东西称为强化学习。 DL4J 为 RL4J 提供了一个解决方案，但它没有得到应有的充分记录，并且只支持少数算法。

【讨论】：