【发布时间】:2015-08-29 16:42:22
【问题描述】:
就这样吧。请记住,在编写代码方面我完全是新手,而且我在 R 之外没有经验。
上下文 - 我要抓取的每个页面都有一个遵循以下格式的 URL:
http://www.hockey-reference.com/friv/dailyleaders.cgi?month=10&day=8&year=2014
在这个 url 中变化的变量是月、日和年(上面加粗)
网址应从 10-8-2014 开始,到 6-18-2015 结束。当然不是每天都有 NHL 比赛,所以有些页面会是空白的。
所有其他页面都有一个用于球员的 HTML 表格和一个用于守门员的表格。
我已经想出了如何抓取并导出到 csv 的单个页面,但不知道从哪里开始制作它,以便我可以在上个赛季的每场比赛中一举完成(落在我上面提到的日期)
代码如下:
library(XML)
NHL <- htmlParse("http://www.hockey-reference.com/friv/dailyleaders.cgi?month=10&day=8&year=2014")
class(NHL)
NHL.tables <- readHTMLTable(NHL,stringAsFactors = FALSE)
length(NHL.tables)
head(NHL.tables[[1]])
tail(NHL.tables[[1]])
head(NHL.tables[[2]])
tail(NHL.tables[[2]])
write.csv(NHL.tables, file = "NHLData.csv")
提前致谢!
【问题讨论】:
-
您是否正在制作一个供公众使用的搜索引擎? sports-reference.com/termsofuse.shtml