高级描述熊猫答案

【问题标题】：Advanced Describe Pandas高级描述熊猫
【发布时间】：2014-07-20 11:39:24
【问题描述】：

有没有更高级的功能，比如 pandas 的 describe 功能？通常我会继续这样：

r = pd.DataFrame(np.random.randn(1000), columns = ['A'])
r.describe()

我会得到一个很好的总结。就像这个：

                A
count  1000.000000
mean      0.010230
std       0.982562
min      -2.775969
25%      -0.664840
50%       0.015452
75%       0.694440
max       3.101434

我可以在 statsmodels 或 scipy 中找到更详细的内容吗？

【问题讨论】：

什么是更“高级”的意思？
我赞同 Jeff 的评论。这个问题目前太模糊，无法回答。
“前进”？表示偏度、峰度、熵...？
你当然可以做一个！
我正在寻找类似于 statsmodels 上的描述的东西，包括总和、模式、偏度、峰度等等。有任何想法吗？我想我在 statsmodels 上看到过类似的东西。

标签： python pandas statistics

【解决方案1】：

from scipy.stats import describe
describe(r, axis=0)

它将为您提供大小、（最小值、最大值）、均值、方差、偏度和峰度

【讨论】：

【解决方案2】：

import pandas_profiling as pp eda = pp.ProfileReport(df) display(eda)

Pandas 分析是一个非常强大的工具，它可以为您提供几乎完整的数据集 EDA，从缺失值、相关性、热图等等开始！

【讨论】：

当我在 jupyter notebook 中使用它时出现一个警告，它会导致绘图出现问题，因为它会在显示模式等中重置某些内容。要重置我使用 %matplotlib inline 并恢复正常

【解决方案3】：

我宁愿利用 pandas 库（添加 variance、skewness、kurtosis）也不愿使用“外部”库，比如：

    stats = df.describe()
    stats.loc['var'] = df.var().tolist()
    stats.loc['skew'] = df.skew().tolist()
    stats.loc['kurt'] = df.kurtosis().tolist()
    print(stats)

PD：pandas_profiling 很棒

耶拉特

【讨论】：