【发布时间】:2019-04-11 17:28:01
【问题描述】:
我正在使用 camelot 进行表格数据提取,但是标题没有被提取为 PDF 的一部分。
附加目标 下面的PDF链接和目标表在第3页和第4页,需要提取。
https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing
我看过 camelot 文档,我认为问题与 “检测短线”
有关https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines
但无法通过调整 line_size_scaling 参数来解决问题。
请帮忙。
【问题讨论】:
标签: pdf-scraping python-camelot