从pdf中提取段落答案

【问题标题】：Extracting paragraph from pdf从pdf中提取段落
【发布时间】：2011-07-15 14:32:08
【问题描述】：

我正在对 pdf 电子书进行主题建模，需要逐段提取文本。为此，我使用 apache pdfBox，它可以有效地从 pdf 中提取文本。

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

但我不能单独提取段落。这个工具提供了一种设置段落开始/结束标识符的方法，但是我需要知道这个的断句标识符。

有没有办法做到这一点，或者是否有其他工具可以有效地提取段落？

【问题讨论】：

【解决方案1】：

PdfNitro 是我发现的用于提取段落的最佳工具。

此工具的唯一问题是它会将分页符视为分段符，否则效果很好。此工具有 14 天试用版可供测试。

【讨论】：