【问题标题】:Convert PDF to text without pdftotext? [closed]将PDF转换为没有pdftotext的文本? [关闭]
【发布时间】:2012-01-17 08:40:29
【问题描述】:

我必须将 PDF 转换为文本,目前我正在使用 pdftotext.exe。这有时会弄乱结果文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

【问题讨论】:

标签: pdf pdftotext


【解决方案1】:

根据其构造方式,将 PDF 转换为文本可能会很棘手,但您可能会从 iTextSharp 或 GhostScript 或商业组件获得良好的结果,例如:来自 www.tallcomponents.com(非附属)

【讨论】:

【解决方案2】:

PDF 文件通常不包含任何结构,因此软件需要猜测它。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/

写了一篇关于这些问题的博文

你也可以试试 PdfBox。

【讨论】:

    【解决方案3】:

    我发现Apache PDFBox 比pdftotext 好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-10-12
      • 1970-01-01
      • 1970-01-01
      • 2010-12-11
      • 2013-03-22
      • 2010-09-06
      相关资源
      最近更新 更多