【问题标题】:extracting data from pdf从pdf中提取数据
【发布时间】:2012-06-11 07:17:31
【问题描述】:

如何从 pdf 文件中提取数据,主要是数据表等,有没有任何免费或开源工具可以直接进行。我必须处理大量文件

【问题讨论】:

    标签: pdf extract pdf-parsing


    【解决方案1】:

    是的,您可以在某种程度上使用 lucene 3.x 库和 pdfbox 0.7 从 pdf 文件中提取文本

    但是从pdf提取中你不能得到转换一些图像和一些格式将被转换成二进制和垃圾代码

    但你可以得到纯文本

    File f = new File("filename");
    
    FileInputStream fis=new FileInputStream(f);
    
    PDFParser parser=new PDFParser(fis);
    
    parser.parse();
    
    PDDocument pd=parser.getPDDocument();
    
    PDFTextStripper pst=new PDFTextStripper();
    
    String pdftext=pst.getText(pd);
    

    为此,您需要下载两个 jar 文件 1) lucene-core-3.0.3 罐子 2) pdfbox-0.7.3 jar

    我会帮你的,别担心

    【讨论】:

      【解决方案2】:

      对于基本的文本提取,如果您可以访问命令行实用程序,请尝试pdftotextpdftohtml。您也可以使用strings 命令。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多