【问题标题】:How do I extract noun/ verbal phrases for portuguese?如何提取葡萄牙语的名词/口头短语?
【发布时间】:2019-12-30 15:33:46
【问题描述】:

我找到了各种工具来提取英语中的动词和名词短语,包括在 * 中的一些问题中。然而,我发现的技术似乎只适用于英文文本。我已经尝试过 spacy 和 textblob 但它们不会为葡萄牙语文本返回任何内容(在英语中完美运行)。

这是我尝试过的葡萄牙语: Spacy to extract specific noun phrase doc.noun_chunks 中的块非常适用于英语,但有人知道葡萄牙语已经存在的技术吗?我正在寻找我知道的所有地方。

【问题讨论】:

    标签: python nlp text-mining spacy textblob


    【解决方案1】:

    noun_chunks 是针对每种语言单独实现的,因为基本名词短语看起来会有所不同:限定词和形容词出现的顺序,相关的依赖关系和词性标签是什么等。

    一些小细节可能会有所不同,但我猜葡萄牙名词块与西班牙语名词块非常相似,因此您可以使用Spanish noun chunks iterator 作为起点。西班牙语和葡萄牙语都使用 Universal Dependencies 中的依赖关系和简单的 POS 标签,所以我希望它很容易适应。

    Spacy 没有任何内置的动词短语提取器,但其基本思想类似于名词块:根据 POS 标签和依赖树定义模式以识别您要提取的短语。

    【讨论】:

      最近更新 更多