【发布时间】:2014-05-11 08:57:23
【问题描述】:
我正在尝试使用crawler4j 实现爬虫。它运行良好,直到:
- 我只运行了 1 个副本。
- 我连续运行它而无需重新启动。
如果我重新启动爬虫,收集的 url 不是唯一的。这是因为,爬虫锁定了根文件夹(存储中间爬虫数据并作为参数传递)。 爬虫重启后会删除根数据文件夹的内容。
是否有可能:?
- 防止根数据文件夹锁定。 (所以,我可以一次运行多个爬虫副本。)
- 重启后根数据文件夹的内容不会被删除。 (这样我就可以在停止后恢复爬虫。)
【问题讨论】: