【发布时间】:2011-07-15 14:32:08
【问题描述】:
我正在对 pdf 电子书进行主题建模,需要逐段提取文本。为此,我使用 apache pdfBox,它可以有效地从 pdf 中提取文本。
PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);
但我不能单独提取段落。这个工具提供了一种设置段落开始/结束标识符的方法,但是我需要知道这个的断句标识符。
有没有办法做到这一点,或者是否有其他工具可以有效地提取段落?
【问题讨论】: