【发布时间】:2015-04-16 10:52:15
【问题描述】:
是否有任何支持表格识别和提取的开源库?
我的意思是:
- 识别表结构存在
- 根据内容对表格进行分类
- 以有用的输出格式从表中提取数据,例如JSON / CSV 等
我查看了有关此主题的类似问题并发现以下内容:
- PDFMiner 解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
- pdf-table-extract 试图解决问题 1 但根据 To-Do 列表,当前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!
目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!
【问题讨论】:
-
如果你也可以使用python以外的工具,你可能想看看tabula。
-
谢谢。肯定会调查的。我热衷于在 python 中找到解决方案,因为可以编写 python 的速度
标签: python pdf scrape pdf-parsing pdf-scraping