【问题标题】:Linux PdfToText function return blank text fileLinux PdfToText 函数返回空白文本文件
【发布时间】:2014-01-14 10:29:18
【问题描述】:

我使用 linux 函数将 PDF 文件列表转换为文本。

命令:

pdftotext -htmlmeta

这适用于我的大多数文件。

但对于其中的一小部分,这会返回一个空白文本文件。

我未成功的完整 pdf 文件未加密,未通过用户/密码保护,也不是只读的。

【问题讨论】:

  • 对于那些出于不同原因发现此问题的人:pdftotext file.pdf 不会输出到stdout,它会将 .txt 保存在与 pdf 文件相同的目录中。要转储到stdout,请使用pdftotext file.pdf -

标签: linux pdftotext


【解决方案1】:

将 PDF 转换为文本并不是一个定义明确的过程。根据 PDF 输入,它可以工作得很好,也可以根本不工作。

这是为什么?因为 PDF 的任务主要是表示文档的光学,而不是文本内容。 PDF 可以是从带有位置信息的纯文本到纯文本字母字形图形的所有内容。在后一种情况下,需要在输入上运行 OCR 才能接收文本信息。 pdftotext 之类的工具无法做到这一点。

有时 PDF 中的文本分散在整个文件中,例如。 G。因为首先在 PDF 中提到了所有标准字体字母,然后在文件的后面,提到了所有斜体字体字母(当然还有位置信息,所以光学表示的读者不会注意到这一点,即使标准和斜体混合在整个页面上的文本中)。将这种混乱重新排列成流畅的文本是一项主要任务,不是很多转换器能够完成的。

所以我想你所能做的就是尝试更多的 PDF 到文本的转换器(有些比其他更好,有些更适合某些特定的输入),或者看看你可以从 PDF 之外的其他来源获取文本文件。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-04-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-05
    • 2018-10-06
    相关资源
    最近更新 更多