【问题标题】:Pdf real croppingpdf真实裁剪
【发布时间】:2014-11-03 15:24:12
【问题描述】:

我需要使用 linux shell 裁剪一个 pdf 文档,然后在裁剪的 pdf 中提取文本。

我的想法是使用 pdfcrop linux 工具裁剪 pdf,然后使用 txt2pdf 文本提取器工具来提取裁剪区域中的文本,但我意识到我正在考虑图像,当我尝试这样做的结果与在原始的、未裁剪的 pdf 上执行的结果相同。

我猜这是层问题。由于 pdf 格式适用于图层,如果我不“裁剪”所有图层,结果将包含来自所有图层的所有信息,这是我不想要的。

如果有人知道如何在 pdf 中进行真正的“全层裁剪”,我将不胜感激。如果可能,或者我是否应该开始考虑另一种解决方案。

TY

【问题讨论】:

    标签: pdf crop layer


    【解决方案1】:

    它不是图层,它的事实是裁剪 PDF 通常只涉及设置 CropBox,这根本不会改变 PDF 的实际内容(CropBox 除外)。大多数文本提取代码将忽略 CropBox 并提取所有文本....

    您可以通过一些努力使用 Ghostscript 生成真正裁剪的 PDF(但请注意,仍会包含部分裁剪的字形),然后从中提取文本。但这很丑。

    另外,Ghostscript 和 MuPDF 都可以提取带有坐标信息的文本,这可能足以满足您的需求。

    【讨论】:

    • 我终于用PDFminer文本提取工具了。如果你以 xml 格式提取,你会得到坐标,正如你所说,这对我有用。泰肯斯
    猜你喜欢
    • 2018-12-23
    • 1970-01-01
    • 1970-01-01
    • 2015-07-07
    • 2022-08-04
    • 2011-08-13
    • 2013-06-09
    • 2016-07-26
    • 1970-01-01
    相关资源
    最近更新 更多