在张量流中使用负损失

【问题标题】：use negative loss in tensorflow在张量流中使用负损失
【发布时间】：2018-01-08 05:25:08
【问题描述】：

我正在实现一个基于类采取行动的强化代理。所以它可以采取行动 1 或 2 或 3 或 4。

所以我的问题是我可以在 tensorflow 中使用负损失来阻止它输出动作吗？

示例：假设代理输出动作 1，我想非常强烈地劝阻它不要在这种情况下再次采取动作 1。但它没有应该采取的已知行动。所以我不能只是选择一个不同的动作来让它学习。

所以我的问题是：张量流梯度计算是否处理损失的负值。如果确实如此，它会按照我描述的方式工作吗？

【问题讨论】：

【解决方案1】：

梯度下降最小化器通常会尝试找到最小损失，而与损失表面的符号无关。听起来您要么想要a) 分配一个较大的损失来鼓励您的模型选择其他东西，要么b) 分配第五个no-action 类别。

【讨论】：

“梯度下降最小化器通常会尝试找到最小损失，而不考虑损失表面的符号。”这是否意味着 1）它将尝试使损失尽可能小，即将损失收敛到 -INF OR 2）无论符号如何，它都会尝试使损失尽可能接近零？
@ZsoltSafrany - 梯度是最大变化率的方向，即标量损失函数的向量导数。导数对函数的变化率敏感，而不是常数偏移。所以1），它应该使损失尽可能小。