【问题标题】:Removing non ASCII from corpus从语料库中删除非 ASCII
【发布时间】:2014-12-31 00:19:03
【问题描述】:

我在我的项目中使用 NLTK。但是,如果存在像“•”这样的非 ASCII 词。 NLTK 无法对其进行标记。 我使用nltk.word_tokenize 作为标记器。 如何从整个语料库中删除这些词或让标记器知道这些词?

【问题讨论】:

    标签: python unicode ascii nltk information-retrieval


    【解决方案1】:

    使用以下代码从您的语料库中删除 nonascii

    ip=open(nonascii.txt,'r')
    #Edit should be in w mode
    op=open(ascii.txt,'w')
    for line in ip:
            line=line.strip().decode("ascii","ignore").encode("ascii")
            if line=="":continue
            op.write(line)
    ip.close()
    op.close()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-09
      • 1970-01-01
      • 2013-08-11
      • 2020-05-12
      • 1970-01-01
      • 1970-01-01
      • 2021-03-01
      • 2016-07-20
      相关资源
      最近更新 更多