【发布时间】:2014-09-29 05:13:45
【问题描述】:
我是 Java 编程新手....我需要提取每个 tables and images as per source,我尝试使用 pdfbox 提取文本,但我只获取文本和文本属性。如何使用java程序识别表格、图像、列表等。
是否可以在pdf文件中识别...?
我使用的模块是PDFbox,,如果有任何想法进一步处理...,
【问题讨论】:
-
我们在 PDF 中认为的表格,通常只是在页面上某些特殊位置绘制的文本片段的集合,而不是我们可以查询行和列的表格对象。因此,一般来说,最好的方法是搜索没有内容的行或四个条,其中一个可能分隔列或行。 PDFBox 中没有实现这样的搜索。不过,它确实包含实现该功能所需的基本方法。