在多台计算机上运行 crawler4j |不同的实例|根文件夹锁定答案

【问题标题】：Running crawler4j on multiple computers | different instances | Root Folder Lock在多台计算机上运行 crawler4j |不同的实例|根文件夹锁定
【发布时间】：2014-05-11 08:57:23
【问题描述】：

我正在尝试使用crawler4j 实现爬虫。它运行良好，直到：

我只运行了 1 个副本。
我连续运行它而无需重新启动。

如果我重新启动爬虫，收集的 url 不是唯一的。这是因为，爬虫锁定了根文件夹（存储中间爬虫数据并作为参数传递）。 爬虫重启后会删除根数据文件夹的内容。

是否有可能：？

防止根数据文件夹锁定。（所以，我可以一次运行多个爬虫副本。）
重启后根数据文件夹的内容不会被删除。（这样我就可以在停止后恢复爬虫。）

【问题讨论】：

标签： java crawler4j

【解决方案1】：

您可以尝试使用以下方法更改爬虫的配置：

crawlConfig.setResumableCrawling(true);

在controller.java 类中。

你可以关注this link，看看Resumable crawling。

【讨论】：