【发布时间】:2014-11-03 15:24:12
【问题描述】:
我需要使用 linux shell 裁剪一个 pdf 文档,然后在裁剪的 pdf 中提取文本。
我的想法是使用 pdfcrop linux 工具裁剪 pdf,然后使用 txt2pdf 文本提取器工具来提取裁剪区域中的文本,但我意识到我正在考虑图像,当我尝试这样做的结果与在原始的、未裁剪的 pdf 上执行的结果相同。
我猜这是层问题。由于 pdf 格式适用于图层,如果我不“裁剪”所有图层,结果将包含来自所有图层的所有信息,这是我不想要的。
如果有人知道如何在 pdf 中进行真正的“全层裁剪”,我将不胜感激。如果可能,或者我是否应该开始考虑另一种解决方案。
TY
【问题讨论】: