【发布时间】:2019-02-25 15:12:09
【问题描述】:
我目前正在处理一个包含超过 10000 条新闻的数据集,我想删除只包含一个单词的句子。我搜索了 nltk 和 textcleaner,但是我无法删除只包含一个单词的句子。
比如说: 输入:我想删除一个单词的句子。好的。好的。让我们开始吧。 输出:我想删除一个单词的句子。让我们开始吧。
代码是:
import textcleaner as tc
import nltk
import numpy as np
datafile = np.genfromtxt("f12filtered.txt", encoding='utf-8', delimiter=".")
data = tc.document(datafile)
data.remove_stpwrds()
【问题讨论】:
-
你试过什么?您的代码仅读取文件并删除停用词。你做了什么来解决这个问题?请添加代码。
-
删除停用词是我想要实现的。阅读说明。但是,它不会打印出来或打印到 txt 文件。
-
其实你是对的。停用词不会删除一个单词的句子,它只是删除英语中最常用的单词。我不知道如何用一个单词删除句子。任何形式的帮助表示赞赏。