pdf真实裁剪答案

【问题标题】：Pdf real croppingpdf真实裁剪
【发布时间】：2014-11-03 15:24:12
【问题描述】：

我需要使用 linux shell 裁剪一个 pdf 文档，然后在裁剪的 pdf 中提取文本。

我的想法是使用 pdfcrop linux 工具裁剪 pdf，然后使用 txt2pdf 文本提取器工具来提取裁剪区域中的文本，但我意识到我正在考虑图像，当我尝试这样做的结果与在原始的、未裁剪的 pdf 上执行的结果相同。

我猜这是层问题。由于 pdf 格式适用于图层，如果我不“裁剪”所有图层，结果将包含来自所有图层的所有信息，这是我不想要的。

如果有人知道如何在 pdf 中进行真正的“全层裁剪”，我将不胜感激。如果可能，或者我是否应该开始考虑另一种解决方案。

【问题讨论】：

【解决方案1】：

它不是图层，它的事实是裁剪 PDF 通常只涉及设置 CropBox，这根本不会改变 PDF 的实际内容（CropBox 除外）。大多数文本提取代码将忽略 CropBox 并提取所有文本....

您可以通过一些努力使用 Ghostscript 生成真正裁剪的 PDF（但请注意，仍会包含部分裁剪的字形），然后从中提取文本。但这很丑。

另外，Ghostscript 和 MuPDF 都可以提取带有坐标信息的文本，这可能足以满足您的需求。

【讨论】：