【发布时间】:2016-06-20 09:46:32
【问题描述】:
我想明智地从 PDF 文档页面中提取文本,我正在使用 itext。我使用了他们website中的示例代码:
PdfReader reader = new PdfReader(pathToFile);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
TextExtractionStrategy strategy = parser.processContent(page, new SimpleTextExtractionStrategy());
processContent 方法给了我一个NullPointerException。我做错了什么?
这是我在使用 5.5.0 版和 this 文件时得到的堆栈跟踪:
java.lang.NullPointerException
at com.itextpdf.text.pdf.parser.PdfReaderContentParser.processContent(PdfReaderContentParser.java:82)
at com.itextpdf.text.pdf.parser.PdfReaderContentParser.processContent(PdfReaderContentParser.java:105)
at org.languageresources.PDFExtraktor.extractTextFromPage(PDFExtractor.java:100)
【问题讨论】:
-
在不分享更多信息的情况下,不要期望得到这个问题的答案。网站上的代码适用于 iText 5.5.9 和测试文件。您使用的是哪个版本?您要解析哪个 PDF?如果没有这两个问题的答案,您的问题就无法回答。
-
感谢您的快速回复。我添加了有关堆栈跟踪、文件和我正在使用的版本的信息。
标签: itext