【发布时间】:2022-01-15 21:54:27
【问题描述】:
我有一个文本分类任务。我想将一组文档分为 4 个类别(商业、娱乐、健康、技术)。我为每个类别创建 wordcloud(我删除了停用词),每个 wordcloud 仍然包含停用词,例如(四月,星期二,昨天,一百)。我将 SpaCy、NLTK、gensim 中的停用词集合并为一组完整的停用词。我执行了“remove_stopwords”功能,但我意识到文本中保留了许多特殊的停用词。
问题1 我想删除以下内容:
位置停用词 - 国家名称、城市名称等
时间停用词 - 月份和日期的名称(一月、二月、星期一、星期二、今天、明天……)等
数字停用词 - 描述数字术语(百、千等)的词
手动执行此操作是一项耗时的任务。有没有更好的解决方案?
问题2
在另一个有 4 个类别(商业、科学、体育、世界)的文本分类问题中。以 worlds 列为例。使用“星期一,昨天”之类的词对“世界”类别中的文本进行分类是一种好习惯吗?
【问题讨论】:
-
您在这里想要达到的目标是什么?你知道有一个叫做 king 的国家和一个叫做 monday 的公司,你确定要删除它们吗?请描述您试图解决的问题
-
@NaorTedgi 我编辑了问题并简要总结了问题
-
好的,所以我假设您有每个类别的文档样本,您能否仅使用 unigram 和按 gram 显示基线结果而不删除此停用词?对于一个简单的算法,例如朴素的基础
标签: python nlp text-classification stop-words