【发布时间】:2014-09-26 09:54:10
【问题描述】:
我将使用 PDFBox 库提取 PDF 文件的内容。内容要逐段处理,每段我都需要它的位置进行后续处理。使用以下代码,我可以提取输入 PDF 的全部内容:
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String txt = stripper.getText(doc);
doc.close();
我有两个问题:
- 不知道如何逐段提取内容。
- 不知道如何存储段落位置以供后续处理(例如高亮等)
谢谢。
【问题讨论】:
-
正如@user3902842 在他的回答中已经提到的那样,PDF 文件通常不知道段落的概念。你可以用 PDFBox 做的是逐个字母地提取带有位置的文本(PDFBox 可以帮助你识别同一行上的文本)。识别该摘录中的段落将是您的工作。
-
我已经在issues.apache.org/jira/browse/PDFBOX-4054报告了这是一项改进
-
你的问题解决了吗?我对答案很感兴趣
标签: pdfbox pdf-extraction