【问题标题】:How to get POS tags of compound words with stanford如何用 stanford 获取复合词的 POS 标签
【发布时间】:2015-09-08 12:23:33
【问题描述】:

我使用Stanford POS Tagger标记句子中的词性,我使用了以下代码:

private static MaxentTagger tagger = new MaxentTagger(".../english-left3words-distsim.tagger");
String tags= tagger.tagString(st);   //st is a string 

当单词不是复合词时会给出结果。但我想要的是得到复合词的词性标签,比如“回去”,计算机科学”,“捡起”。

有什么想法吗?

【问题讨论】:

    标签: java nlp stanford-nlp pos-tagger


    【解决方案1】:

    根据tagString 方法的文档

    “此方法将输入标记为单词”

    此外,模型经过训练以识别和标记单词(标记)。建议的解决方案:

    1. 写一个custom annotator,它依赖于(在之后运行)词性标注器以及当它找到复合模式时,例如“返回”它可以使用您的自定义注释器注释第一个标记。您可以通过创建字典和/或匹配语法模式来识别这些模式。后者可能还需要dependency parser
    2. 使用tokensregex。这提供了实现对标记及其注释而不是字符进行操作的正则表达式的能力。
    3. 训练可以识别多标记或复合词的新模型。

    【讨论】:

      猜你喜欢
      • 2013-05-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多