【发布时间】:2012-09-11 14:44:45
【问题描述】:
试图抓取维基百科页面,我以前做过很多次这样的事情
library(XML)
myURL <- "http://en.wikipedia.org/wiki/List_of_US_Open_MenUs_Singles_champions"
y <- readHTMLTable(myURL, stringsAsFactors = FALSE)
R 在 RStudio 或标准 GUI 中崩溃
其他类似问题的 SO cmets 建议使用 readLines
u=url(myURL)
readLines(u) # cannot open: HTTP status was '404 Not Found'
url实际上是重定向的所以输入最终的url
myURL <- "http://en.wikipedia.org/wiki/List_of_US_Open_Men%27s_Singles_champions"
这次 readLines 确实输出了页面,但是使用 XML 函数,包括 htmlParse,仍然会导致崩溃
TIA
【问题讨论】:
-
XML包中确实存在一个错误,可能在RS_XML_ParseTree中,正如@benbolker 在对我的回答的评论中指出的那样。
标签: r web-scraping