【发布时间】:2011-04-28 16:28:57
【问题描述】:
有没有一种免费的方法可以通过 VBA 读取 PDF 文件以提取基本文本内容?我需要在我的公司自动化每周数据采集过程,其中数据包含在 PDF 文件中(由数据提供者每周更新)。另外,是否有参考资料可以让我了解 PDF 的文件结构 (DOM?)?
【问题讨论】:
有没有一种免费的方法可以通过 VBA 读取 PDF 文件以提取基本文本内容?我需要在我的公司自动化每周数据采集过程,其中数据包含在 PDF 文件中(由数据提供者每周更新)。另外,是否有参考资料可以让我了解 PDF 的文件结构 (DOM?)?
【问题讨论】:
Adobe 的 PDF 参考在线:http://www.adobe.com/devnet/pdf/pdf_reference.html
我不确定直接从 VBA 读取 PDF 的最佳方式,但如果您可以调用外部 Java 或 C# 程序,那么我建议使用 iText 代替 basic text extraction。
编辑:我也许应该提到 Adobe 的 PDF 参考是一个 800 页的野兽。我发现查找特定问题的答案很有用(例如,存储嵌入的 truetype 字体的宽度),但它可能不是一个好的起点。为此,阅读iText book 帮助我开始了解格式。
【讨论】:
IText 书包含大量用于一般 PDF 任务的示例和大量背景信息,可帮助您理解 PDF 文件。它很快就能收回成本!
【讨论】: