寻找信息熵的两种方法之间的差异答案

【问题标题】：Discrepancy Between Two Methods of Finding Information Entropy寻找信息熵的两种方法之间的差异
【发布时间】：2021-01-04 22:05:22
【问题描述】：

所以我从可汗学院了解了信息熵的概念，其中的表述形式为“每个符号需要的是或否问题的平均数量”。他们还使用对数给出了另一种形式。

假设我们有一个生成 A、B 和 C 的符号生成器。 P(A)=1/2, P(B)=1/3, P(C)=1/6 根据他们的方法，我会得到一个这样的图表： First method

然后我会将它们发生的概率乘以每次给予所需的问题数量 (1/2)*1+(1/3)*2+(1/6)*2 = 1.5bits

但是他们的其他方法给出了 -(1/2)log2(1/2)-(1/3)log2(1/3)-(1/6)log2(1/6)= 1.459...位

差异很小，但仍然很重要。我用不同的组合和概率尝试了这个，得到了相似的结果。有什么我想念的吗？我是否使用了错误的任何一种方法，还是其中一种更有条件？

【问题讨论】：

【解决方案1】：

你的第二个计算是正确的。

您的决策树方法的问题在于决策树不是最优的（实际上，没有二元决策树可能适用于这些概率）。您的“是不是 B”决策节点代表的信息不到一位，因为一旦到达那里，您就已经知道它是可能 B。因此，您的决策树代表了预期会消耗的符号的潜在编码平均 1.5 位，但它代表的信息略少于 1.5 位。

为了得到一棵代表最优编码的二叉树，每个节点都需要有平衡的概率。如果某个符号的概率分母不是 2 的幂，则这是不可能的。

【讨论】：