【发布时间】:2019-10-10 04:44:47
【问题描述】:
我正在开发发票解析器,它以 pdf 或图像格式从发票中提取数据。它适用于具有非表格数据的简单 pdf,但会提供大量输出数据以使用包含表格的 pdf 进行处理。我无法获得为此工作的通用解决方案。我尝试了以下库
Invoice2Data :它是基于模板的。到目前为止,它以json格式给出了相当好的结果。但是包含动态表的复杂pdf的模板创建很复杂。
Tabula :表格提取是基于要提取的表格的坐标。如果表格中的数据增加,表格长度会增加,因此坐标会发生变化。所以在这种情况下会给出错误的结果.
Pdftotext :它将任何 pdf 转换为文本,但格式需要我们不想要的大量解析。
Aws_Textract 和 Elis_Rossum_Ai :以json格式给出所有数据。但是如果表列包含多行,则json解析变得困难。即使给出的json很大,也无法解析。
Tesseract:与 pdftotext 相同。复杂的 pdf 文件不可解析。
除了所有这些或结合上述库之外,是否有人能够解析复杂的 pdf 数据,请帮忙。
【问题讨论】:
-
您是否尝试过使用 MS Word 打开 PDF,将其保存为 xml,然后进行解析?
标签: parsing ocr invoice pdftotext tabula