名称'tokenizer'未定义[重复]

【问题标题】：Name 'tokenizer' is not defined [duplicate]名称'tokenizer'未定义[重复]
【发布时间】：2021-09-12 06:31:02
【问题描述】：

def mytokenizer(document):
    words = tokenizer.tokenize(document.lower())
    
    return words

from nltk.tokenize import sent_tokenize,word_tokenize
mytokenizer('My name is Amar!')

【问题讨论】：

嗯，是的。你没有定义tokenizer。 tokenizer 应该是什么？它应该来自哪里？

标签： python nltk tokenize stop-words

【解决方案1】：

在使用之前，您需要从您导入的两个之一中定义/初始化标记器。要么

tokenizer= sent_tokenize() #if you want to split text into sentences by punctuation

或

tokenizer= word_tokenize() #if you want to split text into word tokens

您可能还需要从 nltk 下载 'punkt' 包以执行该操作，因此如果您收到与此相关的错误，请执行以下操作：

import nltk
nltk.download("punkt")

【讨论】：