【问题标题】:openNLP - Name Finder Training for AddressesopenNLP - 地址的名称查找器培训
【发布时间】:2018-07-05 15:15:32
【问题描述】:

我正在尝试将邮政地址与简历(履历)区分开来。简历来自许多不同的国家,因此没有标准的布局、格式、韵律或地址。

我的原始数据已被分割成句子和标记,可以进行标记。

问题:

惠斯特市/镇是我最感兴趣的,我是否应该标记整个地址以获得最佳效果?

eg blah blah blah <START:location>1 Stack Avenue, London, SE1 KTB<END> blah blah
eg blah blah blah <START:location>Hoch Strasse 21, Berlin 17009, Germany<END> blah blah

鉴于我寻找的地址主要出现在简历的前四分之一,我应该将训练数据削减到 25% 并对实时数据做同样的事情,还是通过将文档保持为一个整体来获得更好的结果只是标记我需要的位?

最后,关于我可能从非结构化文档中找到地址的成功程度有什么想法吗?

非常感谢您的建议、帮助和替代方法。

【问题讨论】:

  • 我确实有一个建议,您可以如何更有效地注释数据。我创建了框架NLPf,它提供了注释工具QPT,它使注释变得不那么费力,而且更有效。此外,您可以使用mvn compile 训练您的模型。如果您有任何问题,请告诉我。

标签: nlp opennlp


【解决方案1】:

我的建议是将其标记为

1 Stack Avenue, <START:location> London, SE1 KTB <END> . Hoch Strasse 21, <START:location> Berlin 17009, Germany<END>

但您需要考虑适当的功能。例如,在您的两个示例中,前一个单词都以逗号结尾。您显然想要前一个单词,但可能是“过去 4 个单词中的数字”之类的特征。不要忘记以前的状态。您可能想要保留一个字典,其中包含“avenue, street”或其他语言中的对应词(Strasse?) .
祝你好运

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-04-28
    • 1970-01-01
    • 1970-01-01
    • 2019-01-06
    • 1970-01-01
    • 2017-09-13
    • 2016-06-09
    • 2017-06-21
    相关资源
    最近更新 更多