【问题标题】:How to distinguish low entropy and high entropy with the information produced using shannon entropy如何用香农熵产生的信息区分低熵和高熵
【发布时间】:2014-03-10 14:31:03
【问题描述】:

我计算了一天中用户可能出现的状态(H:=Home、w:=Work 或 E:=Elsewhere)的熵级别。假设用户 A 一天中每个小时的可能状态为 {H,H,H,H,H,H,H,H,H,W,W,W,W,W,W,W,W, W,E,E,H,H,H,H}

P(H)=13/24=0.54

P(W)=9/24=0.38

P(E)=2/24=0.08

使用香农熵,我想计算用户的熵水平,以了解用户的可预测性。

H(A)=(-P(H)*log2(H)) + (-P(W)*log2(W)) + (-P(E)*log2(E))

=0.48 + 0.53 + 0.29

=1.3

如何区分这些以比特为单位的信息是低熵还是高熵?

【问题讨论】:

    标签: math machine-learning artificial-intelligence entropy


    【解决方案1】:

    当所有事件发生的概率相同时,熵最大,因此结果的不确定性最高

    在您的情况下,最大熵是:

    Hn = log2(24) = 4.5849625007
    

    最小值为0。由您决定结果是否可以分类为熵。

    【讨论】:

    • 嗨 Lizusek,感谢您的回复,但实际上我有点困惑。我相信如果我计算一天中每个小时其他用户(例如,B,C,D)的熵水平,那么他们也将具有相同的熵水平。在这种情况下,你将如何分类哪个用户是高度可预测的,哪个用户不是。我想知道是否有某种尺度可以衡量,这样如果用户超过特定的熵水平,那么它的不确定性是否很高。
    • @Sunny 您必须将用户分类为一组 24 个值,就像您在示例中所做的那样,然后每个用户具有不同的 H、W、E 概率和不同的熵 -> 你可以根据熵水平比较用户
    • @Sunny 我可以向你解释更多吗?
    • ,如果你能更实际地解释一下,我真的很感激。我真正想用熵做的是找到一个月内不同用户的可预测性水平(比如 JAN 31 天)。我试图为此计算最大熵水平,如果它是 log2 (24*31) 或 log2 (24) =4.584 * 31,我会感到困惑。
    • 论文here(pg. 259) 显示低熵用户为 30.9,高熵用户为 48.5。我想知道这是如何区分的。我们将计算出的最大熵是完全巨大的范围,我可以决定如何将特定用户分类为高熵用户或低熵用户。谢谢
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-12-02
    • 2014-03-31
    • 1970-01-01
    • 2014-07-31
    • 1970-01-01
    • 2013-05-14
    • 1970-01-01
    相关资源
    最近更新 更多