【发布时间】:2012-01-11 21:12:56
【问题描述】:
我正在做一个项目,我需要从多页 PDF 中提取每页的 TIFF。 PDF 仅包含图像,每页只有一张图像(我相信它们是在某种复印机/扫描仪上制作的,但尚未证实这一点)。然后使用 TIFF 来创建文档的其他几个衍生版本,因此分辨率越高越好。
我找到了两个食谱,都有帮助,但都不是理想的。希望有人可以帮助我调整其中一个,或提供第三种选择。
配方 1、pdfimages 和 ImageMagick:
先做:
$ pdfimages $MY_PDF.pdf foo"
这会导致多个.pbm 文件(命名为foo-000.pbm、foo-001.pbm)等
然后对每个*.pbm 做:
$ convert $each -resize 3200x3200\> -quality 100 $new_name.tif
专业人士:生成的 TIFF 在长维度上是健康的 3300+ 像素,(-resize 仅用于标准化所有内容)
缺点:页面的方向丢失了,它们以不同的方向旋转出来(它们遵循逻辑模式,所以它们可能是它们被送入扫描仪的方向??)。
配方 2 Imagemagick 独奏:
convert +adjoin $MY_PDF.pdf pages.tif
这给了我每页的 TIFF(pages-0.tif、pages-1.tif 等)。
专业人士:方向不变!
缺点:生成文件的长尺寸
如何放弃 PDF 中图像流的缩放,但保留方向? ImageMagick 中是否还有一些我缺少的魔法?完全不同的东西?
【问题讨论】:
-
您愿意使用非免费的解决方案吗?
-
也许——它需要有一个 API(没有 GUI)并且可以合理地集成;我正在处理数以万计的文档。你有什么想法?
-
写信给我详细信息,我会看看是否可以提供帮助(bitbank@pobox.com)。
-
我不想听起来充满敌意,但是您的解决方案真的如此秘密以至于您不能将其发布在此处以便对其他人有所帮助吗?
-
这不是秘密解决方案。我已经编写了自己的成像代码,并且根据您的需要,我可能可以很快地将一些东西放在一起。例如如果您需要 Windows x86/arm 命令行工具来获取 PDF 文件并将它们拆分为 TIFF 文件而不重新压缩它们,我可以帮助您。
标签: pdf imagemagick image-manipulation tiff