【发布时间】:2016-01-28 12:51:34
【问题描述】:
我也必须从给定的 URL 抓取 PDF 文档... 建议使用任何工具/API 来抓取 PDF 文档... 现在我正在使用 nutch 进行抓取,但我无法从给定的 URL 抓取 PDF...我应该使用任何插件以 nutch 抓取 PDF 吗?
seed.txt --> http://nutch.apache.org regex-urlfilter.txt--->+^http://([a-z0-9]*.)*nutch.apache.org/
提前致谢
【问题讨论】: