【发布时间】:2014-12-31 00:19:03
【问题描述】:
我在我的项目中使用 NLTK。但是,如果存在像“•”这样的非 ASCII 词。 NLTK 无法对其进行标记。
我使用nltk.word_tokenize 作为标记器。
如何从整个语料库中删除这些词或让标记器知道这些词?
【问题讨论】:
标签: python unicode ascii nltk information-retrieval
我在我的项目中使用 NLTK。但是,如果存在像“•”这样的非 ASCII 词。 NLTK 无法对其进行标记。
我使用nltk.word_tokenize 作为标记器。
如何从整个语料库中删除这些词或让标记器知道这些词?
【问题讨论】:
标签: python unicode ascii nltk information-retrieval
使用以下代码从您的语料库中删除 nonascii:
ip=open(nonascii.txt,'r')
#Edit should be in w mode
op=open(ascii.txt,'w')
for line in ip:
line=line.strip().decode("ascii","ignore").encode("ascii")
if line=="":continue
op.write(line)
ip.close()
op.close()
【讨论】: