以编程方式提取 Adobe PDF 包文件 [关闭]答案

【问题标题】：Programmatically extracting Adobe PDF package files [closed]以编程方式提取 Adobe PDF 包文件 [关闭]
【发布时间】：2009-10-12 20:41:49
【问题描述】：

我们的组织中有大量文档无意中保存为 Adobe PDF packages（也称为 PDF 1.7“集合”）。我们想将这些转换为普通的 PDF（这些“包”中的大多数都包含一个沼泽标准 pdf 文件），但考虑到文件的数量，手动操作是不可能的。

任何 Adobe 专家都知道：

另外，我正在研究一种基于宏观的方法，但我宁愿在研究其他选项之前不走这条路。

谢谢！

【问题讨论】：

标签： pdf adobe

【解决方案1】：

经过一番挖掘，我找到了pdftk，它在许多平台上以源代码和二进制文件的形式分发。

它几乎完成了我们需要做的所有事情，我们现在可以遍历我们的文档并在每个文档上递归调用 pdftk（有些是多级附件链）。

【讨论】：

【解决方案2】：

注意 pdftk 只会将可见文档的页面拆分为单个文档。隐藏的文档保持隐藏状态。

您需要使用的选项是 unpack_files。

另一种不受欢迎的混淆格式会阻碍互操作性，因此被归类为恶意软件。

【讨论】：

【解决方案3】：

使用 Adobe Acrobat Professional 将所有内容合并为一个 pdf，然后按书签级别拆分

【讨论】：

【解决方案4】：

我知道这个线程已经有几年的历史了，但是如果有人正在寻找免费实用程序来从 PDF 包中提取文件（尤其是从大型集合中），那么请检查免费实用程序 ByteScout PDF Multitool：它针对 500+ MB 包文件进行了测试提取数百个多级链接附件。

免责声明：我隶属于 ByteScout

【讨论】：