【问题标题】:Information Extraction信息提取
【发布时间】:2020-02-05 07:07:26
【问题描述】:

我正在寻找使用机器学习/NLP/深度学习技术从发票中提取信息的步骤/流程。要遵循的步骤/流程是什么?

该方法需要在下面进行说明

假设有来自 2 个供应商的发票,需要如何创建模型来提取以下字段中提到的值?它会有关键字提取吗?是否需要实施自定义 NER,如果需要,如何实施?应该如何为此创建训练数据?

发票编号 发票日期 发票金额 地址

【问题讨论】:

  • 这个问题太宽泛了。

标签: python deep-learning nlp nltk spacy


【解决方案1】:

您可以使用 SpaCy 训练您的自定义 NER。 SpaCy 需要一种特定的输入格式,其中包含每个实体的开始和结束索引及其标签。可以参考 SpaCy 文档:https://spacy.io/usage/training

【讨论】:

  • 谢谢,我提到过这个。这是最好的选择吗?您是否知道任何其他方法可以解决此问题?
  • 我只尝试过 SpaCy NER,另一个流行的选项是斯坦福 NER。我认为可以更好地看到上下文的更高级的 NER 是 BERT-NER (github.com/kyzhouhzau/BERT-NER)。
猜你喜欢
  • 2015-02-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-15
  • 2012-03-29
  • 2012-03-21
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多