【发布时间】:2012-10-11 09:30:36
【问题描述】:
我有这样的 PDF:
相对于文本内容的所有边距在每个页面上都不同。
有什么工具可以帮我解决这个问题吗?
我知道 Scan Tailor 可以在位图上执行此操作,但这是只有文本层的 PDF,所以我不寻求在任何阶段都涉及位图的解决方案
更新:
好的,对我来说没有必要尝试在 Windows 上运行 PDFCrop,因为主要功能是由 ghostscript 提供的。此命令(取自 pdfcrop perl 脚本):
gswin32c.exe -dSAFER -dNOPAUSE -dBATCH -q -r72 -sDEVICE=bbox -f input.pdf 2> bbox.txt
生成带有文本内容尺寸的 bbox.txt 文件,好像没有边距(边界框)。它看起来像这样:
%%BoundingBox: 91 259 474 757
%%HiResBoundingBox: 91.000000 259.000000 474.000000 757.000000
%%BoundingBox: 85 224 470 768
%%HiResBoundingBox: 85.000000 224.000000 469.375000 768.000000
%%BoundingBox: 102 217 489 768
%%HiResBoundingBox: 102.000000 217.000000 488.457031 768.000000
...
其中第一个到数字是左下角 x,y 值,其余两个和右上角,从左下边缘测量(以像素/点为单位)。
这可以通过用户选择的语言读取,然后根据需要更正 bbox 并再次传递给 ghostscript,即此处引用:Cropping a PDF using Ghostscript 9.01
【问题讨论】:
-
你试过PDFCrop吗?它会自动裁剪图形和文本周围的所有空白区域。
标签: pdf