【问题标题】:Name 'tokenizer' is not defined [duplicate]名称'tokenizer'未定义[重复]
【发布时间】:2021-09-12 06:31:02
【问题描述】:
def mytokenizer(document):
    words = tokenizer.tokenize(document.lower())
    
    return words

from nltk.tokenize import sent_tokenize,word_tokenize
mytokenizer('My name is Amar!')

【问题讨论】:

  • 嗯,是的。你没有定义tokenizertokenizer 应该是什么?它应该来自哪里?

标签: python nltk tokenize stop-words


【解决方案1】:

在使用之前,您需要从您导入的两个之一中定义/初始化标记器。 要么

tokenizer= sent_tokenize() #if you want to split text into sentences by punctuation

tokenizer= word_tokenize() #if you want to split text into word tokens

您可能还需要从 nltk 下载 'punkt' 包以执行该操作,因此如果您收到与此相关的错误,请执行以下操作:

import nltk
nltk.download("punkt")

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-05-27
    • 2018-08-01
    • 2020-06-17
    • 2016-07-06
    • 2015-10-22
    • 2016-05-12
    • 2011-11-19
    相关资源
    最近更新 更多