【问题标题】:POS tagger and chunker词性标注器和分块器
【发布时间】:2015-01-17 17:24:05
【问题描述】:

我想用 JAVA 制作一个词性标注器和分块器。但我无法弄清楚我应该从哪里开始。所有库都需要什么?

【问题讨论】:

    标签: machine-learning pos-tagger


    【解决方案1】:

    你可以使用各种库

    我在我的项目中使用了 OpenNLP。我认为这些说明将帮助您了解 OpenNLP 库。关注这个document

    1. 首先从page下载模型
    2. 然后将它们添加到您的项目中
    3. 您还需要Tokenizer 模型将句子分解为标记。然后将这些令牌传递给 POS Tagger。

    代码示例


    加载模型

    InputStream modelIn = null;
    
    try {
      modelIn = new FileInputStream("en-pos-maxent.bin");
      POSModel model = new POSModel(modelIn);
    }
    catch (IOException e) {
      // Model loading failed, handle the error
      e.printStackTrace();
    }
    finally {
      if (modelIn != null) {
        try {
          modelIn.close();
        }
        catch (IOException e) {
        }
      }
    }
    

    实例化 POSTaggerME

    POSTaggerME tagger = new POSTaggerME(model);
    

    生成标签

        String sent[] = new String[]{"Most", "large", "cities", "in", "the", "US", "had",
                                     "morning", "and", "afternoon", "newspapers", "."};
    //This is manual String tokens of a sentence. To Generate word token use [Tokenizer Model][6]         
        String tags[] = tagger.tag(sent);
    

    链接

    【讨论】:

      【解决方案2】:

      我认为您应该阅读文章或报告以了解他们做了什么。我正在处理越南语,不知道图书馆用什么英文。但我在使用越南语标记库时看到了斯坦福 nlp。 我认为语法和词汇非常重要。 这是 NLP 斯坦福,试试这个。 http://nlp.stanford.edu/software/tagger.shtml

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2015-11-13
        • 1970-01-01
        • 1970-01-01
        • 2013-04-02
        • 2011-06-12
        • 2015-02-20
        • 1970-01-01
        相关资源
        最近更新 更多