【发布时间】:2014-04-15 12:25:07
【问题描述】:
您好,我对 nltk (2.0.4) 有疑问: 我试图阻止“男人”或“牙齿”这个词,但它似乎不起作用。 这是我的代码:
############################################################################
import nltk
from nltk.corpus import wordnet as wn
from nltk.stem.wordnet import WordNetLemmatizer
lmtzr=WordNetLemmatizer()
words_raw = "men teeth"
words = nltk.word_tokenize(words_raw)
for word in words:
print 'WordNet Lemmatizer NOUN: ' + lmtzr.lemmatize(word, wn.NOUN)
#############################################################################
这应该打印 'man' 和 'tooth' 但它会打印 'men' 和 'teeth'。
有什么解决办法吗?
【问题讨论】:
-
嗨!欢迎堆栈溢出!查看维基百科上的lemmatization 文章以获得澄清。您是想为这些词找到单数,还是想为“工业化”、“工业”(应该产生“工业”)等一组词找到一个词/引理?
-
是的,我正在尝试为这些词找到单数;对于像“女人”或“脚”这样的其他词,它非常有效。
标签: nltk python-2.6 wordnet stemming lemmatization