【发布时间】:2013-06-20 15:04:23
【问题描述】:
我有一堆 PDF - 可能有数百或数千。它们的格式不尽相同,但它们中的任何一个都可能有一个或多个包含有趣信息的表,我想将这些信息收集到一个单独的数据库中。
当然,我知道我必须写一些东西才能做到这一点。 Perl 对我来说是一个选择——或者也许是 Java。我真的不在乎什么语言,只要它是免费的(或者便宜的免费试用期,以确保它适合我的目的)。
我正在查看 CAM::Parse(使用草莓 Perl),但我不确定如何使用它来定位和从文件中提取表。我想我确实偏爱 Perl,但我确实想要一些可以可靠工作并且相当容易进行字符串操作的东西。
对于这样的事情有什么好的方法?我站在第一方,所以如果 java(或 python 等)有更好的钩子,现在是了解它的好时机。一般指点好;入门代码将是首选。
【问题讨论】:
-
您对可能包含有趣信息但格式可能不同的 pdf 的描述表明您并不真正了解您拥有的数据。在开始 PDF 文本提取项目之前,请尝试分析您必须处理得足够好的数据以正确制定您的要求。
标签: parsing pdf extract pdf-parsing