【发布时间】:2018-12-14 11:47:50
【问题描述】:
我想做和this question几乎一样的事情。
但是,根据我的数据集,@jezrael 接受的答案中的方法花费的时间太长——我在原始数据框中有大约 300k 行,运行 nlargest(1) 命令需要几分钟。此外,我在一个 head(1000) 有限的数据帧上尝试了它,并且在 value_count 中没有只得到 1 行——我得到了与 value_counts 完全相同的系列。
用我自己的话说:基本上,我的数据集有两列,如下所示:
Session Rating
A Positive
A Positive
A Positive
A Negative
B Negative
B Negative
C Positive
C Negative
使用 counts = df.groupby('Session')['Rating'].value_counts() 我得到一个这样的 Series 对象:
Session Rating
A Positive 3
Negative 1
B Negative 2
C Positive 1
Negative 1
如何获得仅包含具有最大计数的评级的数据框?如果有多个最大值(例如 C),我想从返回的表中排除那个。
【问题讨论】:
-
stackoverflow.com/a/32192310/2027457 检查他的方式以获得更快(这里的 numpy 会比 pandas 更好地帮助你)
-
@0709 我在他生成的同一个数据集上尝试了接受的答案,但它没有给我相同的结果——由于某种原因,形状等于 k。