【发布时间】:2021-06-24 21:04:31
【问题描述】:
作为自学 rvest 的一个例子,我试图抓取一个网站来抓取已经以表格格式写入的数据。唯一的问题是我无法获得基础表数据的输出。
我真正需要的只是播放器栏。
library(tidyverse)
library(rvest)
base <- "https://www.milb.com/stats/"
base2 <- "?page="
base3 <- "&playerPool=ALL"
html <- read_html(paste0(base,"pacific-coast/","2017",base2,"2",base3))
html2 <- html %>% html_element("#stats-app-root")
html3 <- html2 %>% html_text("#stats-body-table player")
https://www.milb.com/stats/pacific-coast/2017?page=2&playerPool=ALL(查看实际示例网址的简便方法)
“HTML 2”似乎可以工作,但我有点不知道从那里做什么。几次不同的尝试都碰壁了。
一旦成功,我将用数字替换文本并执行一些 for 循环(这看起来很简单)。
【问题讨论】:
标签: r web-scraping rvest