【问题标题】:Running crawler4j on multiple computers | different instances | Root Folder Lock在多台计算机上运行 crawler4j |不同的实例|根文件夹锁定
【发布时间】:2014-05-11 08:57:23
【问题描述】:

我正在尝试使用crawler4j 实现爬虫。它运行良好,直到:

  1. 我只运行了 1 个副本。
  2. 我连续运行它而无需重新启动。

如果我重新启动爬虫,收集的 url 不是唯一的。这是因为,爬虫锁定了根文件夹(存储中间爬虫数据并作为参数传递)。 爬虫重启后会删除根数据文件夹的内容。

是否有可能:?

  1. 防止根数据文件夹锁定。 (所以,我可以一次运行多个爬虫副本。)
  2. 重启后根数据文件夹的内容不会被删除。 (这样我就可以在停止后恢复爬虫。)

【问题讨论】:

    标签: java crawler4j


    【解决方案1】:

    您可以尝试使用以下方法更改爬虫的配置:

    crawlConfig.setResumableCrawling(true); 
    

    controller.java 类中。

    你可以关注this link,看看Resumable crawling。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-10-14
      • 1970-01-01
      • 1970-01-01
      • 2014-01-21
      相关资源
      最近更新 更多