【问题标题】:How do I extract noun/ verbal phrases for portuguese?如何提取葡萄牙语的名词/口头短语?
【发布时间】:2019-12-30 15:33:46
【问题描述】:
我找到了各种工具来提取英语中的动词和名词短语,包括在 * 中的一些问题中。然而,我发现的技术似乎只适用于英文文本。我已经尝试过 spacy 和 textblob 但它们不会为葡萄牙语文本返回任何内容(在英语中完美运行)。
这是我尝试过的葡萄牙语:
Spacy to extract specific noun phrase
doc.noun_chunks 中的块非常适用于英语,但有人知道葡萄牙语已经存在的技术吗?我正在寻找我知道的所有地方。
【问题讨论】:
标签:
python
nlp
text-mining
spacy
textblob
【解决方案1】:
noun_chunks 是针对每种语言单独实现的,因为基本名词短语看起来会有所不同:限定词和形容词出现的顺序,相关的依赖关系和词性标签是什么等。
一些小细节可能会有所不同,但我猜葡萄牙名词块与西班牙语名词块非常相似,因此您可以使用Spanish noun chunks iterator 作为起点。西班牙语和葡萄牙语都使用 Universal Dependencies 中的依赖关系和简单的 POS 标签,所以我希望它很容易适应。
Spacy 没有任何内置的动词短语提取器,但其基本思想类似于名词块:根据 POS 标签和依赖树定义模式以识别您要提取的短语。