【发布时间】:2018-04-20 14:44:57
【问题描述】:
我正在使用 Rcrawler 来抓取网址向量。对于他们中的大多数人来说,它运行良好,但时不时地,他们中的一个并没有被抓取。起初我只是在 https:// 网站上注意到这一点,地址为 here。但我使用的是 0.1.7 版本,它应该具有 https:// 功能。
我还发现 this other user 遇到了同样的问题,但也有 http:// 链接。我检查了我的实例,但他的网站也没有为我正确抓取。
当我尝试抓取这些网站之一时,我得到了以下结果:
>library(Rcrawler)
>Rcrawler("https://manager.submittable.com/beta/discover/?page=1&sort=")
>In process : 1..
Progress: 100.00 % : 1 parssed from 1 | Collected pages: 1 |
Level: 1
+ Check INDEX dataframe variable to see crawling details
+ Collected web pages are stored in Project folder
+ Project folder name : manager.submittable.com-191922
+ Project folder path : /home/anna/Documents/Rstudio/Submittable/manager.submittable.com-191922
有什么想法吗?仍在等待创作者的回复。
【问题讨论】:
-
是否有任何错误消息可以提供更多见解?根据那个日志,一切都很好
-
可能是该网站的
robots.txt内容禁止抓取? -
@NicoHaase,没有错误消息。根据 R 的说法,一切都按预期运行,但是如果您访问这些站点,肯定会有内部 url 没有被拾取。也许 42- 是对的,这是房东采取的安全措施。
标签: r web-scraping web-crawler rcrawler