【问题标题】:Is there a way to run Rcrawler without downloading all the HTMLs?有没有办法在不下载所有 HTML 的情况下运行 Rcrawler?
【发布时间】:2019-05-27 13:09:36
【问题描述】:

我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?

我只需要存储在 INDEX 中的 URL。 或者谁能​​推荐另一种让 Rcrawler 运行得更快的方法?

我曾尝试以较小的页面深度 (5) 运行它,但它仍然需要很长时间。

【问题讨论】:

  • 你能提供网站链接和预期输出吗?

标签: r web-crawler rcrawler


【解决方案1】:

我正在处理同样的问题。根据来源,在某些情况下我什至在深度 1 处运行。

最好, 亚努斯

【讨论】:

猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-03-01
  • 2019-06-17
  • 1970-01-01
  • 2021-04-15
  • 2019-10-01
相关资源
最近更新 更多