【发布时间】:2021-01-09 00:53:54
【问题描述】:
我想对以下网站中的表格进行网络抓取:https://www.timeshighereducation.com/world-university-rankings/2021/world-ranking#!/page/0/length/25/sort_by/rank/sort_order/asc/cols/stats 我正在使用以下代码,但它不起作用,提前谢谢你。
library(rvest)
library(xml2)
library(dplyr)
link <- "https://www.timeshighereducation.com/world-university-rankings/2021/world-ranking#!/page/0/length/25/sort_by/rank/sort_order/asc/cols/stats"
page<- read_html(link)
rank<- page %>% html_nodes(".sorting_2") %>% html_text()
university<-page %>% html_nodes(".ranking-institution-title ") %>% html_text()
statistics<-page %>% html_nodes(".stats") %>% html_text()
【问题讨论】:
-
什么不起作用?我可以通过禁用 javascript 来查看数据是动态添加的,因此您将需要 RSelenium 或检查网络选项卡以查看数据的来源(如果通过登录页面的额外 xhr)