【发布时间】:2017-03-01 14:38:06
【问题描述】:
我是网络抓取的新手,我正在尝试抓取多个网页上的表格。这里是网站:http://www.baseball-reference.com/teams/MIL/2016.shtml
我可以使用rvest 轻松地在一个页面上抓取表格。有多个表,但我只想刮第一个,这是我的代码
library(rvest)
url4 <- "http://www.baseball-reference.com/teams/MIL/2016.shtml"
Brewers2016 <- url4 %>% read_html() %>%
html_nodes(xpath = '//*[@id="div_team_batting"]/table[1]') %>%
html_table()
Brewers2016 <- as.data.frame(Brewers2016)
问题是我想抓取页面上可追溯到 1970 年的第一个表格。表格正上方的左上角有一个指定上一年的链接。有人知道我该怎么做吗?
我也对不同的方法持开放态度,例如,除了 rvest 之外的其他可能效果更好的包。我使用 rvest 是因为它是我开始学习的。
【问题讨论】:
-
我不会筛选它们以找到完美的副本,但如果您只是简单地搜索 stackoverflow.com/…,就会有多个答案
标签: r web-scraping rvest