【问题标题】:Comparing Power Law with other Distributions比较幂律与其他分布
【发布时间】:2018-03-13 21:22:57
【问题描述】:

我正在使用 Jeff Alstott 的 Python 幂律包来尝试将我的数据拟合到幂律。 Jeff 的软件包基于 Clauset 等人的论文,该论文讨论了幂律。

首先,关于我的数据的一些细节:

  1. 是离散的(字数数据);
  2. 向左严重偏斜(高偏斜)
  3. 它是 Leptokurtic(超峰度大于 10)

到目前为止我做了什么

df_data 是我的 Dataframe,其中 word_count 是一个包含大约 1000 个单词标记的单词计数数据的系列。

首先我生成了一个 fit 对象:

fit = powerlaw.Fit(data=df_data.word_count, discrete=True)

接下来,我将我的数据的幂律分布与其他分布进行比较 - 即 lognormalexponentiallognormal_positivestretched_exponential truncated_powerlaw,使用 fit.distribution_compare(distribution_one, distribution_two) 方法。

作为 distribution_compare 方法的结果,我为每个比较获得了以下 (r,p) 元组:

  • fit.distribution_compare('power_law', 'lognormal') = (0.35617607052907196, 0.5346696007)
  • fit.distribution_compare('power_law', 'exponential') = (397.3832646921206, 5.3999952097178692e-06)
  • fit.distribution_compare('power_law', 'lognormal_positive') = (27.82736434863289, 4.2257378698322223e-07)
  • fit.distribution_compare('power_law', 'stretched_exponential') = (1.37624682020371, 0.2974292837452046)
  • fit.distribution_compare('power_law', 'truncated_power_law') =(-0.0038373682383605, 0.83159372694621)

来自幂律文档:

R : 浮动

两组似然的对数似然比。如果是阳性, 第一组可能性更有可能(因此概率 产生它们的分布更适合数据)。如果 负数,反之亦然。

p : 浮动

R符号的意义。如果低于临界值 (通常为 0.05)R 的符号被认为是显着的。如果高于 临界值 R 的符号被认为是由于统计 波动。

从幂律分布、指数分布和对数正态分布的对比结果来看,我倾向于说我有幂律分布。

这是对测试结果的正确解释/假设吗?还是我遗漏了什么?

【问题讨论】:

    标签: python power-law


    【解决方案1】:

    首先,虽然这些方法可能是由我、Cosma Shalizi 和 Mark Newman 开发的,但我们的实现是在 Matlab 和 R 中实现的。我认为您正在使用的 Python 实现可能来自 Jeff Alstott 或 Javier del Molino Matamala或者 Joel Ornstein (all of these are available off my website)。

    现在,关于结果。似然比检验 (LRT) 不允许您得出结论是否存在幂律分布。它只是一个模型比较工具,这意味着它评估幂律是否比其他替代方法更适合您的数据。 (我这样说是因为 LRT 不是一种拟合优度方法。)因此,即使幂律分布优于所有备选方案,也并不意味着您的数据 幂律分布的。这只意味着幂律模型是一种比其他方法更糟糕的数据统计模型。

    要评估幂律分布本身是否是统计上合理的模型,您应该使用半参数引导程序 we describe in our paper 计算拟合幂律模型的 p 值。如果p>0.1幂律模型比 LRT 的替代方案更受青睐,那么您可以得出结论,在幂律分布之后,您的数据得到了相对较强的支持.

    回到您的具体结果:您的每个 LRT 比较都会产生一对 (r,p),其中 r 是标准化的对数似然比,p 是该比率的统计显着性。这里正在测试 p-value 的东西是 rsign 是否有意义。如果 LRT 的 p,则正号表示幂律模型受到青睐。查看您的结果,我发现指数和 lognormal_positive 替代方案比幂律模型更适合数据。但是,lognormal、stretched_exponential 和 truncated_power_law 不是,这意味着这些替代方案与您的幂律模型一样非常适合数据。

    没有来自幂律模型本身假设检验的 p 值,LRT 结果无法完全解释。但即使是部分解释也与幂律模式的强有力证据不一致,因为两个非幂律模型与这些数据的幂律一样好(坏)。考虑到您的数据的右偏度,指数模型确实比幂律更糟糕这一事实并不令人惊讶,因此没有什么可写的。

    【讨论】:

    • 嗨@aaronclauset。非常感谢您的 cmets - 有点荣幸收到您对我的问题的反馈。为了正确起见,我更新了问题。
    • (续)只是为了在同一页上。因此,即使幂律假设检验的结果显示的 p 值足以拒绝零假设,LRT 对于幂律与某些分布的不确定性这一事实将阻止我说明幂-如果有足够的确定性,法律将是一个很好的选择。这个假设正确吗?提前致谢!
    • 更详细一点 - 考虑我的 LRT 测试结果,并假设 KS 幂律测试给我 p > 0.1,我是否能够得出结论,我至少有适度支持说幂律非常适合我的分布?
    • 乐于助人!如果仅针对幂律的假设检验返回 p>0.1,那么可以说您的数据是合理的幂律分布。 (故意选择“似是而非”这个词,因为它暗示了一点经验上的不确定性。)但是,即使在这种情况下,如果 LRT 说某些非幂律分布与幂律分布一样合适,那么这削弱了您的数据绝对是幂律分布的情况。原因是对数正态和拉伸指数也可以使数据看起来像幂律。
    • 感谢亚伦的快速回复!我使用了 Joel Ornstein 的 plpva.py 库来计算 p 值。作为运行 plpva 的结果,我得到 p = 0.9 和 gof = 0.003。据我了解,KS 检验(在 plpva 中实现)的零假设是分布是相同的——我的 p 值越低,我必须拒绝零假设并得出结论的证据就越大分布不同。但是结果可以让我说我的数据是合理的幂律分布吗?
    猜你喜欢
    • 2016-01-22
    • 2011-03-16
    • 1970-01-01
    • 2011-05-15
    • 1970-01-01
    • 2015-01-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多