【发布时间】:2013-12-11 15:41:12
【问题描述】:
我想构建一个实用程序来从 PDF 中提取嵌入文件(请参阅the spec 的第 7.11.4 节)。但是,我希望该实用程序“小”,而不是依赖于完整的 PDF 解析框架。我想知道文件格式是否可以让一个简单的工具扫描文档以查找某些标记或序列,并从中知道从哪里开始提取嵌入的文件。
潜在的困难包括您扫描的令牌或序列可能有效地存在于文档的其他地方,从而导致虚假或损坏的文档提取。
我对 PDF 规范不是很熟悉,所以我正在寻找
- 确认这是可能的
- 一种可行的通用方法
【问题讨论】:
-
至少有两种情况会让你的生活变得困难:加密文件和对象流(一个包含对象集合的压缩对象)。
-
我对 PDF 规范不太熟悉 - 在这种情况下,请先熟悉,然后再尝试类似的操作。
-
@yms:我可以不处理加密文件(我假设您的意思是带密码的 PDF 文件?),但您能多谈谈对象流吗?
标签: pdf