/*深度控制*/
深度控制:nutch是广域网的深度遍历,我们需要的是垂直采集(即只采集某一个栏目),举例,索引页总计20页,如果只有下一页,则深度为20,
如果是1 2 3 4 5……20则深度为2即可。深度是未知的。相当于多了一个参数,不便于管理。 解决方案:将深度设为无限大。依靠segments来退出采集,而不是依靠深度。 /*批量dump*/ 目的:org.apache.nutch.segment.SegmentReader 类提供的命令 -dump仅仅是读取一个segment下的网页信息。为了实现批量dump,更改了代码,
将输入路径该为\crawl\segments 并遍历segments下的文件。

 

相关文章:

  • 2021-12-18
  • 2022-02-18
  • 2021-06-06
  • 2021-09-23
  • 2021-04-02
  • 2022-02-27
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-12-15
  • 2021-09-15
  • 2021-04-11
  • 2021-11-15
相关资源
相似解决方案