如何解释 scipy.stats.probplot 结果？答案

【问题标题】：How to interpret scipy.stats.probplot results?如何解释 scipy.stats.probplot 结果？
【发布时间】：2018-06-14 23:16:16
【问题描述】：

我想使用scipy.stats.probplot() 对mydata 执行一些高斯测试。

from scipy import stats
_,fit=stats.probplot(mydata, dist=stats.norm,plot=ax)
goodness_fit="%.2f" %fit[2]

文档说：

根据样本数据的分位数生成概率图 指定的理论分布（正态分布由默认）。 probplot 可选地计算数据的最佳拟合线并使用 Matplotlib 或给定的绘图函数绘制结果。 probplot 生成概率图，不要混淆带有 Q-Q 或 P-P 图。 Statsmodels 具有更广泛的功能这种类型，请参见 statsmodels.api.ProbPlot。

但是如果google 概率图，它是P-P图的通用名称，而文档说不要混淆这两个东西。

现在我很困惑，这个函数是做什么的？

【问题讨论】：

它返回排序后的样本日期和排序后的经验分位数。有一个 matplotlib 扩展可以更进一步：matplotlib.org/mpl-probscale/tutorial/closer_look_at_viz.html
为什么和QQ图不一样？ en.wikipedia.org/wiki/Q%E2%80%93Q_plot
在我提供给你的链接中有解释。如果有任何不清楚的特定语言，请告诉我。
我告诉你他们是。我在 mpl-probscale 中使用 scipy
@PaulH 但问题是关于 probplot() 的情节，而不是 mpl-probscale。对我来说，它看起来像 QQ 图，但文档字符串声称它不是。

标签： python numpy matplotlib plot statistics

【解决方案1】：

我从几个小时以来一直在寻找这个问题的答案，这可以在 Scipy/Statsmodel 代码 cmets 中找到。

在 Scipy 中，https://github.com/scipy/scipy/blob/abdab61d65dda1591f9d742230f0d1459fd7c0fa/scipy/stats/morestats.py#L523 的评论说：

probplot 生成概率图，不要与 Q-Q 或 P-P 图。 Statsmodels 具有更广泛的功能输入，见statsmodels.api.ProbPlot。

那么，现在，让我们看看 Statsmodels，https://github.com/statsmodels/statsmodels/blob/66fc298c51dc323ce8ab8564b07b1b3797108dad/statsmodels/graphics/gofplots.py#L58 的评论说：

ppplot：概率-概率图比较样本和理论概率（百分位数）。

qqplot : 分位数-分位数图比较样本和理论分位数

probplot ：概率图与 Q-Q 图相同，但概率以理论分布（x 轴）和 y 轴包含样本数据的未缩放分位数。

因此，QQ图和概率图在这些模块中的区别与尺度有关。

【讨论】：

【解决方案2】：

事件发生的理论概率是基于对情况的了解的“预期”概率。它是有利结果的数量与可能结果的数量之比。

当您在实验期间从观察中收集数据时，您将计算经验（或实验）概率。

示例：你扔了一枚硬币，得到了一个正面。

实验概率（头）=1
理论概率（头）=0.5

为简单起见，请参见下图，该图显示了获得特定账单金额的概率。显示了 p 和 q 图。

ppplot（概率-概率图）

比较样本和理论概率（百分位数）。

qqplot（分位数-分位数图）

比较样本和理论分位数

概率图（概率图）

与 Q-Q 图相同，但概率以理论分布的比例（x 轴）显示，y 轴包含样本数据的未缩放分位数。

ppplot、qqplot 和 probplot 的区别与尺度有关。两者都在 x 和 y 轴上显示样本值和理论值。

百分位图

百分位图是最简单的图。您只需根据它们的绘图位置绘制数据。绘图位置以线性比例显示，但数据可以适当缩放。

分位数图

分位数图类似于概率图。主要区别在于，绘图位置会根据概率分布转换为分位数或 ZZ 分数。

默认分布是标准正态分布。您会注意到 QQ 图上的数据形状比 P-P 图上的更直。这是由于将绘图位置转换为分布的分位数时发生的转换。

最佳拟合线

向概率图添加最佳拟合线可以深入了解数据集是否可以通过分布来表征。

在统计和概率分位数中，分位数是将概率分布的范围划分为具有相等概率的连续区间，或以相同方式划分样本中的观察值。

正态分布的概率密度，显示了四分位数。红色曲线下方的面积在区间 (−∞,Q1)、(Q1,Q2)、(Q2,Q3) 和 (Q3,+∞) 中相同。

在统计学中，Q–Q（分位数-分位数）图是一种概率图，它是一种通过绘制彼此的分位数来比较两个概率分布的图形方法。

如果要比较的两个分布相似，则 Q–Q 图中的点将大致位于线 y = x 上。如果分布是线性相关的，则 Q–Q 图中的点将大致位于一条线上，但不一定位于 y = x 线上。

Q-Q 图用于比较分布的形状，提供位置、规模和偏度等属性在两个分布中的相似或不同之处的图形视图。

P-P 图绘制了两个累积分布函数 (cdf) 相互对比：这是一个概率图，用于评估两个数据集的一致性程度，它绘制了两个累积分布函数相互对比。 P-P 图广泛用于评估分布的偏度。

【讨论】：