【发布时间】:2019-12-02 21:42:38
【问题描述】:
我尝试使用 Rvest 收集网站的 URl,但我使用的节点/标签(“node-title”)似乎不包含每个链接的“href”。但是,如果我使用相同的节点/标签来收集主页中的 URL(我正在尝试抓取搜索部分),它确实有效。
#Getting the dynamic URL using %d
url_espectador <- 'https://www.elespectador.com/search/proceso paz farc?page=%d'
#The original website is https://www.elespectador.com/search/proceso%20de%20paz?page=1
#Reading through the pages and collecting website elements
map_df(1:10, function(i) {
pagina <- read_html(sprintf(url_espectador, i, '%s', '%s', '%s', '%s'))
data.frame(link = str_trim(html_attr(html_nodes(pagina, ".node-title"), "href")),
stringsAsFactors=FALSE)
}) -> titulos_espectador
我得到的是每个字符串的 NA。有人可以帮忙吗?谢谢!
【问题讨论】:
标签: r web-scraping rvest