【发布时间】:2018-04-27 14:55:34
【问题描述】:
我有问题。我必须从网站上提取信息:https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1,其中包含俱乐部名称、他们网站的地址(transfermarkt 个人资料)以及球队个人资料中的体育场名称。这是我第一次接触从网站提取数据。任何帮助表示赞赏。一开始我写了这样的代码:
library(rvest)
theurl <- "https://www.transfermarkt.co.uk/premier-league/startseite/wettbewerb/GB1"
file<-read_html(theurl)
tables<-html_nodes(file, "table")
table1 <- html_table(tables[4], fill = TRUE)
【问题讨论】:
-
您到底需要什么参数? “CLUBS OF THE PREMIER LEAGUE 17/18”的表格?
-
如果你通过管道传递 html_nodes(file, "table") %>% html_nodes(a) 你可以看到hrefs,那么这是正则表达式的问题
-
我需要球队资料中包含俱乐部名称、网站俱乐部和体育场名称的表格。
标签: r screen-scraping rvest xmlnode