【发布时间】:2018-07-05 15:15:32
【问题描述】:
我正在尝试将邮政地址与简历(履历)区分开来。简历来自许多不同的国家,因此没有标准的布局、格式、韵律或地址。
我的原始数据已被分割成句子和标记,可以进行标记。
问题:
惠斯特市/镇是我最感兴趣的,我是否应该标记整个地址以获得最佳效果?
eg blah blah blah <START:location>1 Stack Avenue, London, SE1 KTB<END> blah blah
eg blah blah blah <START:location>Hoch Strasse 21, Berlin 17009, Germany<END> blah blah
鉴于我寻找的地址主要出现在简历的前四分之一,我应该将训练数据削减到 25% 并对实时数据做同样的事情,还是通过将文档保持为一个整体来获得更好的结果只是标记我需要的位?
最后,关于我可能从非结构化文档中找到地址的成功程度有什么想法吗?
非常感谢您的建议、帮助和替代方法。
【问题讨论】:
-
我确实有一个建议,您可以如何更有效地注释数据。我创建了框架NLPf,它提供了注释工具QPT,它使注释变得不那么费力,而且更有效。此外,您可以使用
mvn compile训练您的模型。如果您有任何问题,请告诉我。