【问题标题】:use negative loss in tensorflow在张量流中使用负损失
【发布时间】:2018-01-08 05:25:08
【问题描述】:

我正在实现一个基于类采取行动的强化代理。 所以它可以采取行动 1 或 2 或 3 或 4。

所以我的问题是我可以在 tensorflow 中使用负损失来阻止它输出动作吗?

示例: 假设代理输出动作 1,我想非常强烈地劝阻它不要在这种情况下再次采取动作 1。但它没有应该采取的已知行动。所以我不能只是选择一个不同的动作来让它学习。

所以我的问题是: 张量流梯度计算是否处理损失的负值。 如果确实如此,它会按照我描述的方式工作吗?

【问题讨论】:

    标签: python tensorflow machine-learning


    【解决方案1】:

    梯度下降最小化器通常会尝试找到最小损失,而与损失表面的符号无关。听起来您要么想要a) 分配一个较大的损失来鼓励您的模型选择其他东西,要么b) 分配第五个no-action 类别。

    【讨论】:

    • “梯度下降最小化器通常会尝试找到最小损失,而不考虑损失表面的符号。”这是否意味着 1)它将尝试使损失尽可能小,即将损失收敛到 -INF OR 2)无论符号如何,它都会尝试使损失尽可能接近零?
    • @ZsoltSafrany - 梯度是最大变化率的方向,即标量损失函数的向量导数。导数对函数的变化率敏感,而不是常数偏移。所以1),它应该使损失尽可能小。
    猜你喜欢
    • 2018-12-16
    • 2018-12-07
    • 2021-10-15
    • 1970-01-01
    • 2019-06-25
    • 1970-01-01
    • 2018-12-21
    • 1970-01-01
    • 2017-09-02
    相关资源
    最近更新 更多