【发布时间】:2013-08-07 04:29:53
【问题描述】:
我使用的是 Apache-nutch 1.6,我的要求是将 PDF 文档作为 .pdf 文件本身抓取,但我无法将 pdf 文件作为文本本身抓取。 在我的 nutch-site.xml 中,我只给出了 http.agent.name、http.robots.name、http.proxy.host ......有什么我应该添加的...... 在我的插件中,我只有 parse-tika,有什么要添加的...如果有的话建议我链接...
我可以抓取 .html 但对于 .pdf 文件没有解析文本....
错误: parse.ParseUtil - 无法成功解析应用程序/pdf 类型的内容http://nutch.apache.orgmailing_lists.pdf parse.ParseSegment - 解析错误:http://nutch.apache.org/mailing_lists.pdf: failed(2,200): org.apache.nutch.parse.ParseException: 无法成功解析内容
提前谢谢....
【问题讨论】: