【发布时间】:2019-12-17 21:52:22
【问题描述】:
我一直在尝试以 pdf 格式提取嵌入在年度报告中的财务报表,并使用 python 以 excel/CSV 格式导出它们但我遇到了一些问题: 1. 特定的财务报表可以在报告的任何页面上。如果我要处理数百个 pdf,我将不得不指定页码,这需要很长时间。有没有什么方法可以让爬虫知道确切的语句在哪里? 2.一些报告跨越多个页面,抓取pdf后的最终结果不是我想要的 3、不同的年报有不同的财务报表格式。有没有办法处理它们并将它们更改为特定的标准格式?
如果有人做过类似的事情并可以分享示例,我也将不胜感激。
Ps 我正在使用 python 并使用 tabula 和 Camelot
【问题讨论】:
标签: python pdf-scraping