【发布时间】:2017-04-06 17:47:22
【问题描述】:
我正在尝试训练几个神经网络(使用 tensorflow),以便能够从发票中提取语义信息。经过一长串阅读后,我想出了这个:
- 使用word2vec 生成词嵌入(更多内容见下文)。
- 将
word2vec的输出提供给 CNN,因为靠近的向量具有相似的语义。
所以我上面描述的非常高级的方法对我来说似乎很好。如果有任何问题,我希望得到纠正。
我有几个担心:
- 语料库选择。使用例如维基百科的通用语料库就足够了吗?或者我应该为发票使用专门的语料库?如果是后者,我该如何生成这个语料库?我确实有一个可以使用的大型发票数据集。
- 信息提取。假设上述所有工作都很好,并且我能够从一张新的看不见的发票中理解语义信息。如何提取某些信息?例如,假设我们引入了一张具有
order number: 12345的新发票,假设order number被理解为发票编号(或位于order number附近的任何向量),如何提取值12345?我正在关注的一个领域是SyntaxNet,它可以在这里提供帮助。
感谢任何帮助/见解。
跟进@wasi-ahmad 的问题: 我试图了解有关发票的语义信息的原因是最终能够从中提取价值。因此,例如,如果我向我的神经网络提供一张看不见的发票,它会找到发票的编号(无论它的标签是什么)并提取其价值。
【问题讨论】:
-
投票结束这个问题,因为它太宽泛是没有意义的。我的问题的主题很具体:从发票文件中提取信息。我已经提出了我的想法,我需要验证和/或不同的观点,因此我在这里发帖。
-
@sansingh 这是我的问题链接
-
你采取了什么方法?什么对你有用?我正在研究类似的问题。我会很感激你的帮助。谢谢。
标签: machine-learning nlp tensorflow