【发布时间】:2019-11-27 15:56:30
【问题描述】:
我有一个 pandas 数据框,其中包含“评论”列和“年份”列。我想查看评论列中出现频率最高的 100 个单词,但按年份过滤。所以,我想知道从 2002 年、2003 年、2004 年等到 2017 年的前 100 名。
import pandas as pd
from nltk.corpus import stopwords
df=pd.read_csv('./reviews.csv')
stop = stopwords.words('english')
commonwords = pd.Series(' '.join(df['reviews']).lower().split()).value_counts()[:100]
print(commonwords)
df.to_csv('commonwords.csv', index=False)
上面的代码有效,但它只给出了所有年份中出现频率最高的 100 个单词。
【问题讨论】:
标签: python pandas word-frequency