【发布时间】:2019-04-08 08:38:48
【问题描述】:
如果我没有找到有关此问题的先前主题,我深表歉意。 我想抓取这个网站 http://www.fao.org/countryprofiles/en/ 特别是,此页面包含许多指向国家/地区信息的链接。这些链接的结构是:
http://www.fao.org/countryprofiles/index/en/?iso3=KAZ
http://www.fao.org/countryprofiles/index/en/?iso3=AFG
并且此页面的任何内容都包含我感兴趣的新闻部分。 当然,我可以逐页抓取,但那会浪费时间。
我尝试了以下方法,但不起作用:
countries <- read_html("http://www.fao.org/countryprofiles/en/") %>%
html_nodes(".linkcountry") %>%
html_text()
country_news <- list()
sub <- html_session("http://www.fao.org/countryprofiles/en/")
for(i in countries[1:100]){
page <- sub %>%
follow_link(i) %>%
read_html()
country_news[[i]] <- page %>%
html_nodes(".white-box") %>%
html_text()
}
有什么想法吗?
【问题讨论】:
-
我不太清楚您所说的“逐页”浪费时间是什么意思。除非有 API,否则您将不得不逐页执行(也许您的意思是手动还是自动?)
-
抱歉,我的意思是手动。当然,我必须逐页进行。
标签: r web-scraping