【问题标题】:How to create image from PDF using PDFBox in JAVA如何在 JAVA 中使用 PDFBox 从 PDF 创建图像
【发布时间】:2013-02-14 06:22:34
【问题描述】:

我想从 PDF 的第一页创建图像。我正在使用 PDFBox 。在网上研究后,我发现了以下sn-p代码:

public class ExtractImages
 {
    public static void main(String[] args)
    {
        ExtractImages obj = new ExtractImages();
            try 
            {
                obj.read_pdf();
            }

            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

    }

    void read_pdf() throws IOException 
    {
            PDDocument document = null; 
            try 
            {
                document = PDDocument.load("H:\\ct1_answer.pdf");
            }
            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

            List<PDPage>pages =  document.getDocumentCatalog().getAllPages();
            Iterator iter =  pages.iterator(); 

            int i =1;
            String name = null;

            while (iter.hasNext()) 
            {
                PDPage page = (PDPage) iter.next();
                PDResources resources = page.getResources();
                Map pageImages = resources.getImages();
                if (pageImages != null) 
                { 
                    Iterator imageIter = pageImages.keySet().iterator();
                    while (imageIter.hasNext()) {
                        String key = (String) imageIter.next();
                        PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                        image.write2file("H:\\image" + i);
                        i ++;
                    }
                }
            }

        }

 } 

在上面的代码中没有错误。但是这段代码的输出什么都没有。我原以为上面的代码会产生一系列图像,这些图像将保存在 H 盘中。但是从这段代码生成的代码中没有图像。为什么 ?

【问题讨论】:

  • 你的观察是多么奇幻!我已经理解了这段代码的每一行。看来代码应该可以实现我的目标。但事实是它并没有按照我的预期工作。
  • 您是否正在尝试提取嵌入在您的 PDF 页面中的图像并将它们写入磁盘?因为 that 就是这段代码的作用。
  • 我想将 PDF 的第一页输出为图像。
  • 您提供的链接不是我的问题的重复。看看我们链接的代码中有一个 BufferedImage 类,它不受 android 支持。 @Christophe Roussy

标签: java pdf pdfbox


【解决方案1】:

不要试图粗鲁,这是您发布的代码在其主工作循环中的作用:

PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map pageImages = resources.getImages();

它从 PDF 文件中获取每个页面,从页面中获取资源,并提取 嵌入的图像。然后它将这些写入磁盘。

如果您想成为一名称职的软件开发人员,您需要能够研究和阅读文档。对于 Java,这意味着 Javadocs。谷歌搜索PDPage(或明确访问 apache 站点)会找到Javadoc for PDPage

在该页面上,您可以找到用于将PDPage 转换为图像的方法convertToImage() 的两个版本。问题解决了。

除了……

不幸的是,他们返回java.awt.image.BufferedImage,根据您提出的其他问题,这是一个问题,因为您正在使用的 Android 平台不支持它。

简而言之,您不能在 Android 上使用 Apache 的 PDFBox 来做您想做的事情。

在 StackOverflow 上搜索,您会发现同样的问题以不同的形式多次提出,这将引导您找到:https://stackoverflow.com/questions/4665957/pdf-parsing-library-for-android/4766335#4766335 以及您可能感兴趣的以下答案:https://stackoverflow.com/a/4779852/302916

不幸的是,即使上述答案所说的那个也可以工作......不是很用户友好;没有“如何”或我能找到的文档。它也被标记为“alpha”。对于虚心的人来说,这可能不是什么东西,因为它需要阅读和理解他们的代码才能开始使用它。

【讨论】:

  • 但是这种从 PDF 创建图片的趋势是一项非常普遍的任务。这个任务是在 Aldiko 中完成的,它是一个 pdf 阅读库。我必须不惜一切代价去做。
  • ImageIOBufferedImage 是您将映像写入磁盘所需的全部内容。但是您是说 Android 不支持这些 Java 库? O.o
【解决方案2】:

我复制了您上面的代码并将以下库添加到我在 Eclipse 中的构建路径中。这是工作。

Apache PDFBox 1.7.1 libs

Commons Logging 1.1.1 libs

【讨论】:

  • 我想从 PDF 的第一页创建图像。但是上面的代码 sn-p 从 pdf 中提取图像?我可以做些什么来实现我的目标?
  • 只能获取第一页而不是以下行: Listpages = document.getDocumentCatalog().getAllPages();希望它能回答你的问题。问候。
猜你喜欢
  • 2014-04-16
  • 2023-03-05
  • 1970-01-01
  • 1970-01-01
  • 2018-03-20
  • 2013-11-11
  • 2012-02-01
  • 1970-01-01
相关资源
最近更新 更多