【问题标题】:Basic question about heavy-tailed distribution [closed]关于重尾分布的基本问题[关闭]
【发布时间】:2021-08-08 07:02:04
【问题描述】:
我有一个关于重尾分布的基本问题。
假设西班牙有 50,000 个城市,每个城市的人口用 p(1), p(2), ..., p(n) 表示。基于分布的平均值???和偏差????,我们如何判断分布是否是重尾分布?我们应该考虑什么程序?
【问题讨论】:
-
我投票结束这个问题,因为它与 help center 中定义的编程无关,而是关于 ML 理论和/或方法 - 请参阅 machine-learning @ 中的介绍和注意事项987654322@.
标签:
machine-learning
statistics
distribution
【解决方案1】:
如果您拥有全部 50,000 个观测值,那么您可以计算均值的中心矩。
特别是,第四个中心矩除以方差的平方是峰度。这个数字会告诉你分布是否是 platykurtic。如果大于 3,则意味着您的分布的尾部比标准正态分布更重。
因此,如果您使用 Python 并且所有 50K 观察结果都存储在 x:
from scipy import stats
# Calculate kurtosis
k = stats.moment(x, 4) / x.var()**2
# Evaluate
if k > 3:
print('Distribution has heavy tails')
else:
print('Distribution does not have heavy tails')