【发布时间】:2019-01-09 02:04:41
【问题描述】:
我需要使用 nltk 对文本进行词形还原。为此,我将nltk.pos_tag 应用于每个句子,然后将生成的 Penn Treebank 标签 (http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) 转换为 WordNet 标签。我需要这样做,因为WordNetLemmatizer.lemmatize() 期望单词及其正确的 pos_tag 作为参数,否则它只会假设一切都是动词。
我刚刚发现WordNet中定义了五种不同的标签:
- wn.VERB
- wn.ADV
- wn.NOUN
- wn.ADJ
- wn.ADJ_SAT
但是,我在 Internet 上找到的每个示例在将 Treebank 标记转换为 WordNet 标记时都会忽略 wn.ADJ_SAT。它们都只是将 Penn 标签映射到 WordNet 标签,如下所示:
- 如果 Penn 标签以 J 开头:转换为 wn.ADJ
- 如果 Penn 标签以 V 开头:转换为 wn.VERB
- 如果 Penn 标签以 N 开头:转换为 wn.NOUN
- 如果 Penn 标签以 R 开头:转换为 wn.ADV
所以 wn.ADJ_SAT 从未使用过。
我的问题现在是,是否存在词形还原器为 ADJ_SAT 返回与 ADJ 不同的结果的情况。属于附属形容词 (ADJ_SAT) 和非普通形容词 (ADJ) 的词有哪些例子?
【问题讨论】:
标签: python nlp nltk wordnet lemmatization