如何用香农熵产生的信息区分低熵和高熵答案

【问题标题】：How to distinguish low entropy and high entropy with the information produced using shannon entropy如何用香农熵产生的信息区分低熵和高熵
【发布时间】：2014-03-10 14:31:03
【问题描述】：

我计算了一天中用户可能出现的状态（H:=Home、w:=Work 或 E:=Elsewhere）的熵级别。假设用户 A 一天中每个小时的可能状态为 {H,H,H,H,H,H,H,H,H,W,W,W,W,W,W,W,W, W,E,E,H,H,H,H}

P(H)=13/24=0.54

P(W)=9/24=0.38

P(E)=2/24=0.08

使用香农熵，我想计算用户的熵水平，以了解用户的可预测性。

H(A)=(-P(H)*log2(H)) + (-P(W)*log2(W)) + (-P(E)*log2(E))

=0.48 + 0.53 + 0.29

=1.3

如何区分这些以比特为单位的信息是低熵还是高熵？

【问题讨论】：

标签： math machine-learning artificial-intelligence entropy

【解决方案1】：

当所有事件发生的概率相同时，熵最大，因此结果的不确定性最高

在您的情况下，最大熵是：

Hn = log2(24) = 4.5849625007

最小值为0。由您决定结果是否可以分类为高或低熵。

【讨论】：

嗨 Lizusek，感谢您的回复，但实际上我有点困惑。我相信如果我计算一天中每个小时其他用户（例如，B，C，D）的熵水平，那么他们也将具有相同的熵水平。在这种情况下，你将如何分类哪个用户是高度可预测的，哪个用户不是。我想知道是否有某种尺度可以衡量，这样如果用户超过特定的熵水平，那么它的不确定性是否很高。
@Sunny 您必须将用户分类为一组 24 个值，就像您在示例中所做的那样，然后每个用户具有不同的 H、W、E 概率和不同的熵 -> 你可以根据熵水平比较用户
@Sunny 我可以向你解释更多吗？
，如果你能更实际地解释一下，我真的很感激。我真正想用熵做的是找到一个月内不同用户的可预测性水平（比如 JAN 31 天）。我试图为此计算最大熵水平，如果它是 log2 (24*31) 或 log2 (24) =4.584 * 31，我会感到困惑。
论文here(pg. 259) 显示低熵用户为 30.9，高熵用户为 48.5。我想知道这是如何区分的。我们将计算出的最大熵是完全巨大的范围，我可以决定如何将特定用户分类为高熵用户或低熵用户。谢谢