【发布时间】:2026-02-14 01:20:04
【问题描述】:
PythonNLTK book第5章给出了这个在句子中标注单词的例子:
>>> text = nltk.word_tokenize("And now for something completely different")
>>> nltk.pos_tag(text)
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]
nltk.pos_tag 调用默认标记器,它使用一整套标记。本章后面会介绍simplified set of tags。
如何使用这组简化的词性标签来标记句子?
我也正确理解了标记器,即我可以按照我的要求更改标记器使用的标记集,还是应该将它返回的标记映射到简化集,或者我应该创建一个新的标记器一个新的、简单标记的语料库?
【问题讨论】: