【发布时间】:2010-11-14 21:37:03
【问题描述】:
是否有可用于读取 PDF 文档并将数据转换或导出为 Excel 文档的示例代码或实用程序?
我在搜索时看到的大多数示例代码都是将 Excel 转换为 PDF。
【问题讨论】:
-
我从 pdfbox 中找到了一些实用程序,我使用 dll 从 pdf 文件中提取文本。
是否有可用于读取 PDF 文档并将数据转换或导出为 Excel 文档的示例代码或实用程序?
我在搜索时看到的大多数示例代码都是将 Excel 转换为 PDF。
【问题讨论】:
问题在于 PDF 可能不保留任何电子表格类型的结构 - 它只是在页面上绘制的文本。因此,除非它是一个非常简单的页面,否则您不太可能对结果感到满意。
【讨论】:
您唯一真正的选择是寻找第三方解决方案。我怀疑你会找到一个免费的 SDK 让你这样做,原因很简单,它并不那么容易。我会查看Solid Documents,可能还有一些Investintech's solutions。
较新版本的 Acrobat 还提供了一些更高级的 PDF 到 Excel 提取功能,因此 Adobe's PDF Library SDK 可能也值得一看。
【讨论】:
您可以使用pdfsharp提取数据并使用openxml sdk创建一个excel文件。这样你就会得到你想要的。这需要一些工作,但不需要 excel 或 acrobat 或任何花钱的东西。
优点:
缺点:
【讨论】:
我创建了一个解决方案,它结合使用开源 XPDF 和 VBA 将多个 PDF 文件中的数据以结构化格式导入 Excel。它通过指定开始和结束文本模式并使用可选替换提取中间文本来清理输出。解决方案可以在http://www.business-spreadsheets.com/forum.asp?t=884免费下载
【讨论】: