【发布时间】:2018-01-08 05:25:08
【问题描述】:
我正在实现一个基于类采取行动的强化代理。 所以它可以采取行动 1 或 2 或 3 或 4。
所以我的问题是我可以在 tensorflow 中使用负损失来阻止它输出动作吗?
示例: 假设代理输出动作 1,我想非常强烈地劝阻它不要在这种情况下再次采取动作 1。但它没有应该采取的已知行动。所以我不能只是选择一个不同的动作来让它学习。
所以我的问题是: 张量流梯度计算是否处理损失的负值。 如果确实如此,它会按照我描述的方式工作吗?
【问题讨论】:
标签: python tensorflow machine-learning