【发布时间】:2017-11-07 01:16:47
【问题描述】:
假设我有类似的日志
[[4.3, -0.5, -2.7, 0, 0],
[0.5, 2.3, 0, 0, 0]]
显然第一个示例中的最后两个和第二个示例中的最后三个被屏蔽(即它们为零)并且不应影响损失和梯度计算。
如何计算此 logits 和相应标签之间的交叉熵损失?为了理智,这个例子的标签可以像
[[1, 0, 0, 0, 0],
[0, 1, 0, 0, 0]]
(一个问题:Softmax,然后是 log,logits 上的也适用于掩码零,tf 的交叉熵方法也会考虑这些元素的损失。)
(另外,您可以这样思考问题:我在批次中有不同长度的 logits,即我的 logits 分别为 eg.1 和 eg.2 的长度 3 和 2。标签后面也是如此。 )
【问题讨论】:
标签: python tensorflow machine-learning nlp