【问题标题】:Discrepancy Between Two Methods of Finding Information Entropy寻找信息熵的两种方法之间的差异
【发布时间】:2021-01-04 22:05:22
【问题描述】:

所以我从可汗学院了解了信息熵的概念,其中的表述形式为“每个符号需要的是或否问题的平均数量”。他们还使用对数给出了另一种形式。

假设我们有一个生成 A、B 和 C 的符号生成器。 P(A)=1/2, P(B)=1/3, P(C)=1/6 根据他们的方法,我会得到一个这样的图表: First method

然后我会将它们发生的概率乘以每次给予所需的问题数量 (1/2)*1+(1/3)*2+(1/6)*2 = 1.5bits

但是他们的其他方法给出了 -(1/2)log2(1/2)-(1/3)log2(1/3)-(1/6)log2(1/6)= 1.459...位

差异很小,但仍然很重要。我用不同的组合和概率尝试了这个,得到了相似的结果。有什么我想念的吗?我是否使用了错误的任何一种方法,还是其中一种更有条件?

【问题讨论】:

    标签: information-theory


    【解决方案1】:

    你的第二个计算是正确的。

    您的决策树方法的问题在于决策树不是最优的(实际上,没有二元决策树可能适用于这些概率)。您的“是不是 B”决策节点代表的信息不到一位,因为一旦到达那里,您就已经知道它是可能 B。因此,您的决策树代表了预期会消耗的符号的潜在编码平均 1.5 位,但它代表的信息略少于 1.5 位。

    为了得到一棵代表最优编码的二叉树,每个节点都需要有平衡的概率。如果某个符号的概率分母不是 2 的幂,则这是不可能的。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多