groupby.value_counts() 之后的 pandas reset_index答案

【问题标题】：pandas reset_index after groupby.value_counts()groupby.value_counts() 之后的 pandas reset_index
【发布时间】：2017-02-08 06:35:06
【问题描述】：

我正在尝试按列分组并计算另一列的值计数。

import pandas as pd
dftest = pd.DataFrame({'A':[1,1,1,1,1,1,1,1,1,2,2,2,2,2], 
               'Amt':[20,20,20,30,30,30,30,40, 40,10, 10, 40,40,40]})

print(dftest)

dftest 看起来像

进行分组

grouper = dftest.groupby('A')
df_grouped = grouper['Amt'].value_counts()

给了

   A  Amt
1  30     4
   20     3
   40     2
2  40     3
   10     2
Name: Amt, dtype: int64

我想要的是保留每组的前两行

另外，当我尝试 reset_index 时，我被一个错误弄糊涂了

df_grouped.reset_index()

以下错误

df_grouped.reset_index() ValueError: 无法插入 Amt，已存在

【问题讨论】：

如果你使用dftest.groupby('A', as_index=False)，你就不需要reset_index()

标签： python pandas dataframe data-manipulation data-science

【解决方案1】：

reset_index 中需要参数name，因为Series 名称与MultiIndex 级别之一的名称相同：

df_grouped.reset_index(name='count')

另一种解决方案是renameSeries姓名：

print (df_grouped.rename('count').reset_index())

   A  Amt  count
0  1   30      4
1  1   20      3
2  1   40      2
3  2   40      3
4  2   10      2

更常见的解决方案是value_counts 是聚合size：

df_grouped1 =  dftest.groupby(['A','Amt']).size().reset_index(name='count')

print (df_grouped1)
   A  Amt  count
0  1   20      3
1  1   30      4
2  1   40      2
3  2   10      2
4  2   40      3

【讨论】：

完美！！解决了重置索引问题...有没有更好的方法来按组保留前 n 行，计数...现在在尝试了一些事情之后，我能想到的唯一可能的方法是首先 groupby.value_counts，然后是子集
可能需要nlargest - dftest.groupby(['A','Amt']).size().nlargest(3)
您可以将 nlargest 应用于 groupby，因此可以根据您的级别 0 再次分组：df_grouped.groupby(level=0).nlargest(2)
"name" 在新版本的 pandas 中被废弃：pandas.pydata.org/pandas-docs/stable/generated/…
也可以使用dftest.groupby(['A','Amt']).size().reset_index(name='count')