【发布时间】:2015-07-12 09:55:06
【问题描述】:
common_words = set(['je', 'tek', 'u', 'još', 'a', 'i', 'bi',
's', 'sa', 'za', 'o', 'kojeg', 'koju', 'kojom', 'kojoj',
'kojega', 'kojemu', 'će', 'što', 'li', 'da', 'od', 'do',
'su', 'ali', 'nego', 'već', 'no', 'pri', 'se', 'li',
'ili', 'ako', 'iako', 'bismo', 'koji', 'što', 'da', 'nije',
'te', 'ovo', 'samo', 'ga', 'kako', 'će', 'dobro',
'to', 'sam', 'sve', 'smo', 'kao'])
all = []
for (item_content, item_title, item_url, fetch_date) in cursor:
#text = "{}".format(item_content)
text= item_content
text= re.sub('[,.?";:\-!@#$%^&*()]', '', text)
text = text.lower()
#text = [w for w in text if not w in common_words]
all.append(text)
我想从变量“test”中删除某些单词/停用词,或者稍后从列表“all”中删除迭代中的所有“text”变量。
我这样尝试过,但这不仅会删除单词,还会删除那些字母,如果它们存在于其他单词中,并且每个单词的输出都像'd','f',我希望格式保持不变同样,我只需要从变量(或列表)中删除 common_words 列表中的那些单词。我将如何实现这一目标?
【问题讨论】:
标签: python text replace stop-words