【发布时间】:2019-05-27 13:09:36
【问题描述】:
我在一个非常大的网站上运行 Rcrawler,因此需要很长时间(默认页面深度为 3 天以上)。有没有办法不下载所有 HTML 以加快处理速度?
我只需要存储在 INDEX 中的 URL。 或者谁能推荐另一种让 Rcrawler 运行得更快的方法?
我曾尝试以较小的页面深度 (5) 运行它,但它仍然需要很长时间。
【问题讨论】:
-
你能提供网站链接和预期输出吗?
标签: r web-crawler rcrawler