如何使用 Nutch 1.6 抓取 PDF 文档？答案

【问题标题】：How to crawl PDF documents using Nutch 1.6?如何使用 Nutch 1.6 抓取 PDF 文档？
【发布时间】：2013-08-07 04:29:53
【问题描述】：

我使用的是 Apache-nutch 1.6，我的要求是将 PDF 文档作为 .pdf 文件本身抓取，但我无法将 pdf 文件作为文本本身抓取。在我的 nutch-site.xml 中，我只给出了 http.agent.name、http.robots.name、http.proxy.host ......有什么我应该添加的...... 在我的插件中，我只有 parse-tika，有什么要添加的...如果有的话建议我链接...

我可以抓取 .html 但对于 .pdf 文件没有解析文本....

错误： parse.ParseUtil - 无法成功解析应用程序/pdf 类型的内容http://nutch.apache.orgmailing_lists.pdf parse.ParseSegment - 解析错误：http://nutch.apache.org/mailing_lists.pdf: failed(2,200): org.apache.nutch.parse.ParseException: 无法成功解析内容

提前谢谢....

【问题讨论】：

标签： parsing pdf nutch

【解决方案1】：

据我所知...检查 pdpage.class（此类的路径：pdfbox-app-1.8.2/org/apache/pdfbox/pdmodel/PDPage.class）是否包含您的 pdfbox。这是您的问题所必需的。

【讨论】：

parse-tika/pdfbox-1.7.0/org/apache/pdfbox/pdmodel/PDPage.class...我的pdfbox在这条路径中，但在我的日志中...... ..with org.apache.nutch.parse.tika.TikaParser@123653 java.util.concurrent.ExecutionException: java.lang.NoClassDefFoundError: 无法初始化类 org.apache.pdfbox.pdmodel.PDPage
parse.ParserFactory - 解析插件：[org.apache.nutch.parse.tika.TikaParser] 通过 plugin.includes 系统属性启用，并且都声称支持内容类型 application/pdf ，但它们没有在 parse-plugins.xml 文件中映射到它......我认为这是问题，需要纠正......