【发布时间】:2012-06-11 07:17:31
【问题描述】:
如何从 pdf 文件中提取数据,主要是数据表等,有没有任何免费或开源工具可以直接进行。我必须处理大量文件
【问题讨论】:
标签: pdf extract pdf-parsing
如何从 pdf 文件中提取数据,主要是数据表等,有没有任何免费或开源工具可以直接进行。我必须处理大量文件
【问题讨论】:
标签: pdf extract pdf-parsing
是的,您可以在某种程度上使用 lucene 3.x 库和 pdfbox 0.7 从 pdf 文件中提取文本
但是从pdf提取中你不能得到转换一些图像和一些格式将被转换成二进制和垃圾代码
但你可以得到纯文本
File f = new File("filename");
FileInputStream fis=new FileInputStream(f);
PDFParser parser=new PDFParser(fis);
parser.parse();
PDDocument pd=parser.getPDDocument();
PDFTextStripper pst=new PDFTextStripper();
String pdftext=pst.getText(pd);
为此,您需要下载两个 jar 文件 1) lucene-core-3.0.3 罐子 2) pdfbox-0.7.3 jar
我会帮你的,别担心
【讨论】: