【发布时间】:2017-08-09 23:19:13
【问题描述】:
我正在做一个this website 的网络抓取项目。
此时我想做的是从这样的网址中抓取艺术家姓名:https://lsdb.eu/artists/view/225/
由于艺术家的编号设置为 225,因此该页面存在。但是,https://lsdb.eu/artists/view/226/ 不存在,但确实存在编号大于 226 的页面。
有什么方法可以抓取网站以查看哪些https://lsdb.eu/artists/view/xxx/ 网址有效?
【问题讨论】:
-
你可以在
try内包装刮擦,这样它就可以跳过错误的网址并转到下一个。或者,httr::GET允许访问站点响应,因此GET("https://lsdb.eu/artists/view/225/")$status_code将返回 200(好),而GET("https://lsdb.eu/artists/view/226/")$status_code将返回 404(坏)
标签: html r web-scraping rvest httr