什么是交叉熵？ [关闭]答案

【问题标题】：What is cross-entropy? [closed]什么是交叉熵？ [关闭]
【发布时间】：2017-06-18 19:38:03
【问题描述】：

我知道关于什么是交叉熵有很多解释，但我还是一头雾水。

只是描述损失函数的一种方法吗？我们可以使用梯度下降算法通过损失函数找到最小值吗？

【问题讨论】：

不适合 SO。这是数据科学姐妹网站上的一个类似问题：datascience.stackexchange.com/questions/9302/…
简单的非数学解释，参考towardsdatascience.com/…

标签： machine-learning cross-entropy

【解决方案1】：

交叉熵通常用于量化两个概率分布之间的差异。在机器学习的背景下，它是分类多类分类问题的误差度量。通常，“真实”分布（您的机器学习算法试图匹配的分布）用 one-hot 分布表示。

例如，假设对于特定的训练实例，真正的标签是 B（在可能的标签 A、B 和 C 中）。因此，此训练实例的 one-hot 分布为：

Pr(Class A)  Pr(Class B)  Pr(Class C)
        0.0          1.0          0.0

您可以将上述真实分布解释为训练实例有 0% 的概率为 A 类，100% 的概率为 B 类，0% 的概率为 C 类。

现在，假设您的机器学习算法预测以下概率分布：

Pr(Class A)  Pr(Class B)  Pr(Class C)
      0.228        0.619        0.153

预测分布与真实分布的接近程度如何？这就是交叉熵损失所决定的。使用这个公式：

其中p(x) 是真实概率分布（one-hot），q(x) 是预测概率分布。总和超过了 A、B 和 C 三个类别。在这种情况下，损失为 0.479：

H = - (0.0*ln(0.228) + 1.0*ln(0.619) + 0.0*ln(0.153)) = 0.479

对数底

请注意，只要您始终使用相同的对数基数，您使用的对数基数并不重要。碰巧的是，Python Numpy log() 函数计算自然对数（以 e 为底的对数）。

Python 代码

这是上面使用 Numpy 用 Python 表示的示例：

import numpy as np

p = np.array([0, 1, 0])             # True probability (one-hot)
q = np.array([0.228, 0.619, 0.153]) # Predicted probability

cross_entropy_loss = -np.sum(p * np.log(q))
print(cross_entropy_loss)
# 0.47965000629754095

这就是您的预测与真实分布的“错误”或“相距甚远”。机器学习优化器将尝试最小化损失（即，它将尝试将损失从 0.479 减少到 0.0）。

损失单位

我们在上面的例子中看到损失是 0.4797。因为我们使用的是自然对数（以 e 为底的对数），单位为nats，所以我们说损失为 0.4797 nats。如果日志改为以 2 为基数，则单位为位。更多解释见this page。

适应梯度下降

交叉熵是许多可能的损失函数之一（另一种流行的损失函数是 SVM 铰链损失）。这些损失函数通常写为 J(theta)，可以在梯度下降中使用，梯度下降是一种迭代算法，可将参数（或系数）移向最优值。在下面的等式中，您可以将J(theta) 替换为H(p, q)。但请注意，您需要先计算H(p, q) 对参数的导数。

所以直接回答你原来的问题：

只是描述损失函数的一种方法吗？

正确的交叉熵描述了两个概率分布之间的损失。它是许多可能的损失函数之一。

然后我们可以使用例如梯度下降算法来找到最低限度。

是的，交叉熵损失函数可以用作梯度下降的一部分。

延伸阅读：我的一个other answers 与 TensorFlow 相关。

【讨论】：

因此，交叉熵通过每个示例 X 的概率总和来描述损失。
那么，我们是否可以不将误差描述为交叉熵，而是将误差描述为两个向量之间的角度（余弦相似度/角距离）并尝试最小化角度？
显然这不是最好的解决方案，但我只是想知道，理论上，我们是否可以使用cosine (dis)similarity通过角度来描述错误，然后尝试最小化角度。
@Stephen：如果您看一下我给出的示例，p(x) 将是每个类的真实概率列表，即[0.0, 1.0, 0.0。同样，q(x) 是每个类别的预测概率列表，[0.228, 0.619, 0.153]。 H(p, q) 然后是 - (0 * log(2.28) + 1.0 * log(0.619) + 0 * log(0.153))，结果是 0.479。注意，使用 Python 的 np.log() 函数很常见，它实际上是自然对数；没关系。
@HAr：对于真正标签的 one-hot 编码，我们只关心一个非零类。但是，交叉熵可以比较任意两个概率分布；没有必要其中之一具有 one-hot 概率。

【解决方案2】：

简而言之，交叉熵 (CE) 是衡量您的预测值与真实标签之间的距离。

这里的叉指计算两个或多个特征/真实标签（如0、1）之间的熵。

熵这个词本身就是指随机性，所以它的值很大意味着你的预测与真实标签相去甚远。

因此更改权重以减少 CE，从而最终导致预测标签和真实标签之间的差异减少，从而提高准确性。

【讨论】：

【解决方案3】：

除了上述帖子之外，最简单的交叉熵损失形式称为 binary-cross-entropy（用作二元分类的损失函数，例如逻辑回归），而广义版本是categorical-cross-entropy（用作多类分类问题的损失函数，例如神经网络）。

想法保持不变：

当训练实例的目标标签的模型计算 (softmax) 类概率接近 1 时（例如，用 one-hot-encoding 表示），相应的 CCE 损失会降低到零
否则它会随着目标类对应的预测概率变小而增加。

下图演示了这个概念（从图中注意到，当y和p都为高或同时为低时，BCE变低，即一致）：

交叉熵与计算两个概率分布之间距离的相对熵或KL-散度密切相关。例如，在两个离散的pmf之间，它们之间的关系如下图所示：

【讨论】：

对数底

Python 代码

损失单位

更多示例

适应梯度下降