Pandas：对于 groupby value_counts，返回具有最大计数的行答案

【问题标题】：Pandas: for groupby value_counts, return the row(s) with the maximum countPandas：对于 groupby value_counts，返回具有最大计数的行
【发布时间】：2018-12-14 11:47:50
【问题描述】：

我想做和this question几乎一样的事情。

但是，根据我的数据集，@jezrael 接受的答案中的方法花费的时间太长——我在原始数据框中有大约 300k 行，运行 nlargest(1) 命令需要几分钟。此外，我在一个 head(1000) 有限的数据帧上尝试了它，并且在 value_count 中没有只得到 1 行——我得到了与 value_counts 完全相同的系列。

用我自己的话说：基本上，我的数据集有两列，如下所示：

Session Rating
A       Positive
A       Positive
A       Positive
A       Negative
B       Negative
B       Negative
C       Positive
C       Negative

使用 counts = df.groupby('Session')['Rating'].value_counts() 我得到一个这样的 Series 对象：

Session Rating
A       Positive  3
        Negative  1
B       Negative  2
C       Positive  1
        Negative  1

如何获得仅包含具有最大计数的评级的数据框？如果有多个最大值（例如 C），我想从返回的表中排除那个。

【问题讨论】：

stackoverflow.com/a/32192310/2027457 检查他的方式以获得更快（这里的 numpy 会比 pandas 更好地帮助你）
@0709 我在他生成的同一个数据集上尝试了接受的答案，但它没有给我相同的结果——由于某种原因，形状等于 k。

标签： python pandas

【解决方案1】：

我想你想要这样的东西。

df.groupby('Session')['Rating'].apply(lambda x: x.value_counts().head(1))

输出：

Session          
A        Positive    3
B        Negative    2
C        Negative    1
Name: Rating, dtype: int64

【讨论】：

必须有另一种方法不使用 apply 吗？我在 1M 行上遇到了同样的挑战......
@XavierBourretSicotte 试试这个df.groupby('Session')['Rating'].value_counts().groupby(level=0).head(1)