【发布时间】:2020-04-24 00:21:22
【问题描述】:
我有以下代码:
import nltk
sent='El gato está bajo la mesa de cristal.'
nltk.pos_tag(word_tokenize(sent), lang='spa')
但是输出根本不准确:
[('El', 'NNP'),
('gato', 'NN'),
('está', 'NN'),
('bajo', 'NN'),
('la', 'FW'),
('mesa', 'FW'),
('de', 'FW'),
('cristal', 'NN'),
('.', '.')]
例如,es 应归类为动词。
如果我尝试使用英语短语:
import nltk
sent='The cat is under the cristal table.'
nltk.pos_tag(word_tokenize(sent), lang='spa')
一切正常:
[('The', 'DT'),
('cat', 'NN'),
('is', 'VBZ'),
('under', 'IN'),
('the', 'DT'),
('cristal', 'NN'),
('table', 'NN'),
('.', '.')]
请注意,我已经下载了所有的 nltk 资源。你能告诉我我在这里遗漏了什么,所以单词标签在西班牙语中不起作用吗?
【问题讨论】:
-
NLTK 中没有用于 POS 标记的西班牙模型。
标签: python machine-learning nlp nltk tokenize