【问题标题】:Pandas: for groupby value_counts, return the row(s) with the maximum countPandas:对于 groupby value_counts,返回具有最大计数的行
【发布时间】:2018-12-14 11:47:50
【问题描述】:

我想做和this question几乎一样的事情。

但是,根据我的数据集,@jezrael 接受的答案中的方法花费的时间太长——我在原始数据框中有大约 300k 行,运行 nlargest(1) 命令需要几分钟。此外,我在一个 head(1000) 有限的数据帧上尝试了它,并且在 value_count 中没有只得到 1 行——我得到了与 value_counts 完全相同的系列。

用我自己的话说:基本上,我的数据集有两列,如下所示:

Session Rating
A       Positive
A       Positive
A       Positive
A       Negative
B       Negative
B       Negative
C       Positive
C       Negative

使用 counts = df.groupby('Session')['Rating'].value_counts() 我得到一个这样的 Series 对象:

Session Rating
A       Positive  3
        Negative  1
B       Negative  2
C       Positive  1
        Negative  1

如何获得仅包含具有最大计数的评级的数据框?如果有多个最大值(例如 C),我想从返回的表中排除那个。

【问题讨论】:

  • stackoverflow.com/a/32192310/2027457 检查他的方式以获得更快(这里的 numpy 会比 pandas 更好地帮助你)
  • @0709 我在他生成的同一个数据集上尝试了接受的答案,但它没有给我相同的结果——由于某种原因,形状等于 k。

标签: python pandas


【解决方案1】:

我想你想要这样的东西。

df.groupby('Session')['Rating'].apply(lambda x: x.value_counts().head(1))

输出:

Session          
A        Positive    3
B        Negative    2
C        Negative    1
Name: Rating, dtype: int64

【讨论】:

  • 必须有另一种方法不使用 apply 吗?我在 1M 行上遇到了同样的挑战......
  • @XavierBourretSicotte 试试这个df.groupby('Session')['Rating'].value_counts().groupby(level=0).head(1)
猜你喜欢
  • 2016-10-10
  • 2019-08-17
  • 1970-01-01
  • 1970-01-01
  • 2021-12-13
  • 1970-01-01
  • 2020-06-14
  • 1970-01-01
  • 2019-03-02
相关资源
最近更新 更多