从pdf中提取数据答案

【问题标题】：extracting data from pdf从pdf中提取数据
【发布时间】：2012-06-11 07:17:31
【问题描述】：

如何从 pdf 文件中提取数据，主要是数据表等，有没有任何免费或开源工具可以直接进行。我必须处理大量文件

【问题讨论】：

【解决方案1】：

是的，您可以在某种程度上使用 lucene 3.x 库和 pdfbox 0.7 从 pdf 文件中提取文本

但是从pdf提取中你不能得到转换一些图像和一些格式将被转换成二进制和垃圾代码

但你可以得到纯文本

File f = new File("filename");

FileInputStream fis=new FileInputStream(f);

PDFParser parser=new PDFParser(fis);

parser.parse();

PDDocument pd=parser.getPDDocument();

PDFTextStripper pst=new PDFTextStripper();

String pdftext=pst.getText(pd);

为此，您需要下载两个 jar 文件 1) lucene-core-3.0.3 罐子 2) pdfbox-0.7.3 jar

我会帮你的，别担心

【讨论】：

【解决方案2】：

对于基本的文本提取，如果您可以访问命令行实用程序，请尝试pdftotext 或pdftohtml。您也可以使用strings 命令。

【讨论】：