如何从熊猫的列中删除常用词？ [复制]

【问题标题】：how to remove common words from a column in pandas? [duplicate]如何从熊猫的列中删除常用词？ [复制]
【发布时间】：2019-03-06 19:12:37
【问题描述】：

Value counts of words

如何删除“to”、“and”、“from”、“this”等常用词。我只对保留“AI”、“数据”、“学习”、“机器”、“人工”之类的词感兴趣。

【问题讨论】：

这个答案stackoverflow.com/a/43407993/7053679

标签： python pandas

【解决方案1】：

我认为您要删除的是“to”、“the”等停用词。nltk 有一个预定义的停用词列表：

from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',...

您可以使用 np.where 将停用词替换为 np.nan

title_analysis['new_col'] = np.where(title_analysis['words'].str.contains(stopwords), np.nan, title_analysis['words'])

然后做 value_counts()

title_analysis['new_col'].value_counts()

如果您有自己想要忽略的单词集，只需将 stop_words 替换为您的单词列表即可。

【讨论】：