【发布时间】:2021-10-25 19:57:19
【问题描述】:
我只是想在这个链接(标题为“Standings - Points”)上抓取第一张桌子:https://www.fantrax.com/fantasy/league/vu0zoow2kk7bh64k/standings
按照这里的一些文档和以前的帖子,我已经尝试过:
data <- read_html("https://www.fantrax.com/fantasy/league/vu0zoow2kk7bh64k/standings")
tables <- data %>% html_table(fill = TRUE)
和
data <- read_html("https://www.fantrax.com/fantasy/league/vu0zoow2kk7bh64k/standings")
tables <- html_nodes(data, "table")
两者都无法从该页面中获取任何内容 - R 只是为每个页面显示一个空白返回。我希望/猜测这只是我缺少的一些简单的东西。
【问题讨论】:
-
该页面的源代码中没有表格。请注意,
rvest只会查看 HTML 源代码。它无法在该页面上运行任何 javascript。大多数现代网站在 HTML 加载后使用 javascript 加载数据。如果您检查“源”选项卡,而不是开发人员工具的“元素”选项卡,您可以看到 rvest 看到的内容。元素是 javascript 运行后的内容。如果您需要从使用 javascript 的站点中提取数据,请考虑使用 RSelenium。或者您可以梳理网络选项卡,看看是否可以找到数据的来源。
标签: r web-scraping rvest