nutch 二次开发

/*深度控制*/
深度控制：nutch是广域网的深度遍历，我们需要的是垂直采集（即只采集某一个栏目），举例，索引页总计20页，如果只有下一页，则深度为20，
如果是1 2 3 4 5……20则深度为2即可。深度是未知的。相当于多了一个参数，不便于管理。
解决方案：将深度设为无限大。依靠segments来退出采集，而不是依靠深度。

/*批量dump*/
目的：org.apache.nutch.segment.SegmentReader 类提供的命令 -dump仅仅是读取一个segment下的网页信息。为了实现批量dump，更改了代码，
将输入路径该为\crawl\segments
并遍历segments下的文件。

2021-12-18
2022-02-18
2021-06-06
2021-09-23
2021-04-02
2022-02-27
2022-12-23
2022-12-23