【问题标题】:Advanced Describe Pandas高级描述熊猫
【发布时间】:2014-07-20 11:39:24
【问题描述】:

有没有更高级的功能,比如 pandas 的 describe 功能? 通常我会继续这样:

r = pd.DataFrame(np.random.randn(1000), columns = ['A'])
r.describe()

我会得到一个很好的总结。就像这个:

                A
count  1000.000000
mean      0.010230
std       0.982562
min      -2.775969
25%      -0.664840
50%       0.015452
75%       0.694440
max       3.101434

我可以在 statsmodels 或 scipy 中找到更详细的内容吗?

【问题讨论】:

  • 什么是更“高级”的意思?
  • 我赞同 Jeff 的评论。这个问题目前太模糊,无法回答。
  • “前进”?表示偏度、峰度、熵...?
  • 你当然可以做一个!
  • 我正在寻找类似于 statsmodels 上的描述的东西,包括总和、模式、偏度、峰度等等。有任何想法吗?我想我在 statsmodels 上看到过类似的东西。

标签: python pandas statistics


【解决方案1】:
from scipy.stats import describe
describe(r, axis=0)

它将为您提供大小、(最小值、最大值)、均值、方差、偏度和峰度

【讨论】:

    【解决方案2】:

    import pandas_profiling as pp eda = pp.ProfileReport(df) display(eda)

    Pandas 分析是一个非常强大的工具,它可以为您提供几乎完整的数据集 EDA,从缺失值、相关性、热图等等开始!

    【讨论】:

    • 当我在 jupyter notebook 中使用它时出现一个警告,它会导致绘图出现问题,因为它会在显示模式等中重置某些内容。要重置我使用 %matplotlib inline 并恢复正常
    【解决方案3】:

    我宁愿利用 pandas 库(添加 varianceskewnesskurtosis)也不愿使用“外部”库,比如:

        stats = df.describe()
        stats.loc['var'] = df.var().tolist()
        stats.loc['skew'] = df.skew().tolist()
        stats.loc['kurt'] = df.kurtosis().tolist()
        print(stats)
    

    PD:pandas_profiling 很棒

    耶拉特

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-02-18
      • 2021-04-14
      • 2017-09-21
      • 2010-10-15
      • 1970-01-01
      • 2014-08-09
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多