【发布时间】:2010-12-25 18:29:10
【问题描述】:
有谁知道从正文中只提取名词的最简单方法?
我听说过TreeTagger tool,我尝试过尝试,但由于某种原因无法使用。
有什么建议吗?
谢谢菲尔
编辑:
导入 org.annolab.tt4j.*;
TreeTaggerWrapper tt = 新 TreeTaggerWrapper();
尝试 { tt.setModel("/Nouns/english.par");
tt.setHandler(new TokenHandler() {
无效令牌(字符串令牌,字符串位置,字符串引理){
System.out.println(token+"\t"+pos+"\t"+lemma); } });
tt.process(单词); // 单词 = 单词列表
} 最后 { tt.destroy();
}
这是我的代码,英语是语言。我收到错误消息:类型 new TokenHandler(){} 必须实现继承的抽象方法 TokenHandler.token。我做错了吗?
【问题讨论】:
-
介意解释一下 TreeTagger 到底有什么问题?
-
您能具体说明您的问题吗?尤其是语言会很高兴知道......例如德语有一个很好的优势,即所有名词的第一个字母都大写。
-
我不熟悉 TreeTagger API,但我会先在 setHandler() 之外实例化 TokenHandler - 这可能会给出更清晰的信息。我的猜测是 TokenHandler 是抽象的,但是 ...
-
另见:stackoverflow.com/questions/608743/…。这与专有名词有关。