【发布时间】:2017-09-04 17:10:15
【问题描述】:
我有一个 DataFrame,其中包含以下数据。每行代表一个词出现在电视剧的每一集中。如果一个单词在一集中出现 3 次,则 pandas 数据框有 3 行。现在我需要过滤一个单词列表,这样我应该只得到出现超过或等于 2 次的单词。我可以通过groupby 做到这一点,但如果一个词出现 2 次(或者说 3,4 或 5)次,我需要两行(3、4 或 5)行。
通过 groupby,我只会获得唯一的条目和计数,但我需要条目重复出现在对话中的次数。有没有一种方法可以做到这一点?
dialogue episode
0 music 1
1 corrections 1
2 somnath 1
3 yadav 5
4 join 2
5 instagram 1
6 wind 2
7 music 1
8 whimpering 2
9 music 1
10 wind 3
所以理想情况下我应该得到,
dialogue episode
0 music 1
6 wind 2
7 music 1
9 music 1
10 wind 3
因为只有这两个词出现超过或等于 2 次。
【问题讨论】: