【发布时间】:2013-07-03 07:25:41
【问题描述】:
我有一个要抓取的网站,其中包含一些指向 pdf 文件的链接。 我希望 nutch 抓取该链接并将它们转储为 .pdf 文件。 我正在使用 Apache Nutch1.6,我也在 java 中将其作为
ToolRunner.run(NutchConfiguration.create(), new Crawl(),
tokenize(crawlArg));
SegmentReader.main(tokenize(dumpArg));
有人可以帮我解决这个问题
【问题讨论】: