您可以通过替换 .tsv 文件中的默认标签(例如:PERS)来拥有任何标签(例如:PERSON)。分类器学习您通过 tsv 文件提供的标签,然后使用您在提供基于自定义标签的模型时提供的标签进行标记。
获取 jane-austen-emma-ch1.tsv(来自http://nlp.stanford.edu/software/ner-example/jane-austen-emma-ch1.tsv)文件的一部分,并将我们自己的自定义标签用于训练,如下所示。我有两个标签——PERSON 和 ADJECTIVE
CHAPTER O
I O
Emma PERSON
Woodhouse PERSON
, O
handsome ADJECTIVE
, O
clever ADJECTIVE
, O
and O
rich ADJECTIVE
, O
with O
a O
comfortable ADJECTIVE
现在您可以将此 tsv 文件输入到分类器(将此 tsv 文件名放在 .prop 文件中)并生成模型,如下所示-
java -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -prop ner.prop
现在,让我们测试任何文本文件的模型,看看它是如何注释的。我们来看下面的文本文件(toBeAnnotated.txt)
CHAPTER O
I Emma Woodhouse, handsome, clever and rich, with a comfortable home and happy disposition, seemed to unite some of the best blessings
运行以下命令对上述文本文件进行注解-
java -mx600m -cp "stanford-ner.jar:slf4j-api.jar" edu.stanford.nlp.ie.crf.CRFClassifier -loadClassifier ner-model.ser.gz -textFile toBeAnnotated.txt -outputFormat inlineXML 2> /dev/null
我得到的输出是(为了清楚起见,我添加了换行符)-
I <PERSON>Emma Woodhouse</PERSON>,
<ADJECTIVE>handsome</ADJECTIVE>, <ADJECTIVE>clever</ADJECTIVE>
and <ADJECTIVE>rich</ADJECTIVE>, with a <ADJECTIVE>comfortable</ADJECTIVE>
home and happy <ADJECTIVE>disposition</ADJECTIVE>,
seemed to unite some of the best blessings