【发布时间】:2017-08-25 14:17:41
【问题描述】:
我有不同类型的 pdf,其中包含多种内容,例如文本、表格等。表格可能存在于 pdf 的任何位置(顶部、中间、底部)。 我只想使用 java 从该 pdf 中提取表数据(列数、行数和表中的数据)而不传递位置。
到目前为止我做了什么:-
1.我使用iText java API读取和提取。使用以下代码:-
PdfTextExtractor.getTextFromPage
但它只是以文本形式返回数据。没有任何线索来确定 pdf 中表的位置以及如何从该表中提取数据。
2. 我也使用过 PDFBox java API,但它也没有解决我的问题。
3.我也关注了这个堆栈溢出链接:-
PDF table extraction
但这并没有给我预期的输出。该算法需要除了行位置之外的所有。
我无法确定在 pdf 中找到表格的位置。
谁能告诉我如何使用 iText 和 PDF box API 解决这个问题,或者是否有任何开源 API 可以帮助我解决这个问题?
或者我们可以将pdf转换成html,以便通过表格标签我们可以识别表格并阅读;)?
【问题讨论】:
-
tabula 也可能有帮助。
-
嗨,古拉夫!你找到解决办法了吗?