从 pdf 报告中提取财务报表

【问题标题】：Extraction of financial statements from pdf reports从 pdf 报告中提取财务报表
【发布时间】：2019-12-17 21:52:22
【问题描述】：

我一直在尝试以 pdf 格式提取嵌入在年度报告中的财务报表，并使用 python 以 excel/CSV 格式导出它们但我遇到了一些问题： 1. 特定的财务报表可以在报告的任何页面上。如果我要处理数百个 pdf，我将不得不指定页码，这需要很长时间。有没有什么方法可以让爬虫知道确切的语句在哪里？ 2.一些报告跨越多个页面，抓取pdf后的最终结果不是我想要的 3、不同的年报有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式？

如果有人做过类似的事情并可以分享示例，我也将不胜感激。

Ps 我正在使用 python 并使用 tabula 和 Camelot

【问题讨论】：

标签： python pdf-scraping

【解决方案1】：

我有一个类似的案例，问题是从 pdf 中提取特定的表单信息（姓名、出生日期等）。我使用tesseract open source software 和pytesseract 对文件执行OCR。由于我不需要整个 pdf，而是来自它们的特定信息，因此我设计了一种算法来查找信息：在我的案例中，我使用了简单的启发式方法（特定字段、特定行号和其他一些特定领域的东西），但你也可以使用机器学习方法并训练可以找到所需文本部分的分类器。您也可以使用特定领域的启发式方法，因为我确信财务报表具有特殊的词汇或一些指示其开始/结束的文本标记。我希望我至少能给你一些解决问题的想法

P.S.：使用 tesseract，您还可以处理多页 pdf。 To 3) - 机器学习方法需要一些样本来很好地概括财务报表的外观。

【讨论】：