【发布时间】:2014-01-25 02:28:00
【问题描述】:
对于包含公司名称的文本,我想训练一个自动标记承包商(执行任务的公司)和委托人(雇用承包商的公司)的模型。
一个例句是:
Blossom Inc. 聘请 Big Think 的顾问制定外包战略。
Blossom Inc 为委托人,Big Think 为承包商。
我的第一个问题:只标记我的训练集中的委托人和承包商就足够了,还是另外使用 POS 标记更好?
换句话说,要么
Blossom/PRINCIPAL Inc./PRINCIPAL 雇佣/NN/NN 顾问/NN/NN Big/CONTRACTOR Think/CONTRACTOR 到/NN 开发/NN/NN 外包/NN 战略/NN ././.
或
Blossom/PRINCIPAL Inc./PRINCIPAL 聘请/VBZ/DT 顾问/NNS/IN Big/CONTRACTOR Think/CONTRACTOR 来/开发/VB 和/DT 外包/NN 策略/NN././.
第二个问题:一旦我有了我的训练集,nltk-package 的哪个算法最有前途? N-Gram Tagger、Brill Tagger、TnT Tagger、Maxent Classifier、朴素贝叶斯,...?还是我完全走错了路?
我是 NLP 的新手,我只是想在投入大量时间标记我的训练集之前征求意见。而且我的文字是德语的,这可能会增加一些困难...感谢您的任何建议!
【问题讨论】:
标签: python nlp nltk named-entity-recognition pos-tagger