【发布时间】:2020-12-28 22:57:20
【问题描述】:
我有一个 pdf 文件,其中中间的页面填满了测量值。 I 看起来像一张桌子,但与线条不完全对齐。我想以与查看 csv 或 Excel 文件相同的方式提取数据。
PDF文件数据样本:
column1 column2 column3 column4
1 0.05 2.01 3.09
2 5.05 4.01 6.03
3 7.01 8.02 1.00
pdf 数据中没有对齐。就像它不像表中那样分开使用符号线。那么哪个模块适合使用它来导出为 Excel 或 csv?
【问题讨论】:
-
使用 PyPDF2,这里是链接,realpython.com/pdf-python。打印出内容,然后看看如何进一步处理它。如果您遇到困难,请发布问题
-
此在线工具如何处理您的文件(选择另存为 HTML 以查看提取)?:pdftron.com/pdf-tools/pdf-table-extraction
-
我找到了一个模块github.com/tabulapdf/tabula,非常有用,解决了目的