【发布时间】:2020-11-28 08:49:24
【问题描述】:
我正在使用一本名为 Natural Language Processing with Python Cookbook 的书学习 NLTK。
这是代码,但根本没有解释。
grammar = r"NAMED-ENTITY: {<NNP>+}"
cp = nltk.RegexpParser(grammar)
samplestrings = [
"Microsoft Azure is a cloud service",
"Bill Gates announces Satya Nadella as new CEO of Microsoft"
]
def demo(samplestrings):
for s in samplestrings:
words = nltk.word_tokenize(s)
tagged = nltk.pos_tag(words)
# chunks = nltk.ne_chunk(tagged)
chunks = cp.parse(tagged)
print(nltk.tree2conllstr(chunks))
print(chunks)
demo(samplestrings)
所以我被第一行卡住了。
grammar = r"NAMED-ENTITY: {<NNP>+}" 这段代码有什么作用?
这是否意味着如果存在多个 NNP(至少一个 NNP),那么该标记词就是命名实体?
谢谢你的回答
【问题讨论】:
标签: python nltk named-entity-recognition chunking