【问题标题】:Extracting paragraph from pdf从pdf中提取段落
【发布时间】:2011-07-15 14:32:08
【问题描述】:

我正在对 pdf 电子书进行主题建模,需要逐段提取文本。为此,我使用 apache pdfBox,它可以有效地从 pdf 中提取文本。

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

但我不能单独提取段落。这个工具提供了一种设置段落开始/结束标识符的方法,但是我需要知道这个的断句标识符。

有没有办法做到这一点,或者是否有其他工具可以有效地提取段落?

【问题讨论】:

    标签: pdf extract pdfbox


    【解决方案1】:

    PdfNitro 是我发现的用于提取段落的最佳工具。

    此工具的唯一问题是它会将分页符视为分段符,否则效果很好。此工具有 14 天试用版可供测试。

    【讨论】:

      猜你喜欢
      • 2022-01-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-09-26
      • 2022-01-25
      • 1970-01-01
      相关资源
      最近更新 更多