【发布时间】:2018-03-13 21:22:57
【问题描述】:
我正在使用 Jeff Alstott 的 Python 幂律包来尝试将我的数据拟合到幂律。 Jeff 的软件包基于 Clauset 等人的论文,该论文讨论了幂律。
首先,关于我的数据的一些细节:
- 是离散的(字数数据);
- 向左严重偏斜(高偏斜)
- 它是 Leptokurtic(超峰度大于 10)
到目前为止我做了什么
df_data 是我的 Dataframe,其中 word_count 是一个包含大约 1000 个单词标记的单词计数数据的系列。
首先我生成了一个 fit 对象:
fit = powerlaw.Fit(data=df_data.word_count, discrete=True)
接下来,我将我的数据的幂律分布与其他分布进行比较 - 即 lognormal、exponential、lognormal_positive、stretched_exponential 和 truncated_powerlaw,使用 fit.distribution_compare(distribution_one, distribution_two) 方法。
作为 distribution_compare 方法的结果,我为每个比较获得了以下 (r,p) 元组:
- fit.distribution_compare('power_law', 'lognormal') = (0.35617607052907196, 0.5346696007)
- fit.distribution_compare('power_law', 'exponential') = (397.3832646921206, 5.3999952097178692e-06)
- fit.distribution_compare('power_law', 'lognormal_positive') = (27.82736434863289, 4.2257378698322223e-07)
- fit.distribution_compare('power_law', 'stretched_exponential') = (1.37624682020371, 0.2974292837452046)
- fit.distribution_compare('power_law', 'truncated_power_law') =(-0.0038373682383605, 0.83159372694621)
来自幂律文档:
R : 浮动
两组似然的对数似然比。如果是阳性, 第一组可能性更有可能(因此概率 产生它们的分布更适合数据)。如果 负数,反之亦然。
p : 浮动
R符号的意义。如果低于临界值 (通常为 0.05)R 的符号被认为是显着的。如果高于 临界值 R 的符号被认为是由于统计 波动。
从幂律分布、指数分布和对数正态分布的对比结果来看,我倾向于说我有幂律分布。
这是对测试结果的正确解释/假设吗?还是我遗漏了什么?
【问题讨论】: