R使用XML抓取html网页答案

【问题标题】：R Scraping html webpage using XMLR使用XML抓取html网页
【发布时间】：2017-03-18 21:21:28
【问题描述】：

我正在尝试使用以下代码抓取此网页。

library(XML)
url <- html("http://www.gallop.co.za/")
doc <- htmlParse(url)
lat <- xpathSApply(doc,path="//p[@id=Racecards]",fun = xmlGetAttr , name = 'Racecards')

我查看了网页，我想抓取的表格是比赛卡表，主要是为了获取比赛卡数据所在位置的链接。

我使用了选择器小工具，它返回 xml 路径：

//*[(@id = "Racecards")]

但是，当我使用 R 代码时，它返回一个零列表。感觉好像我在某种程度上弄错了 xml 路径，返回表格但也返回表格中的链接的正确方法是什么？

【问题讨论】：

标签： html xml web-scraping rstudio rcurl

【解决方案1】：

好像数据是通过json传输的，使用js插入到html中。所以你无法从html 获取数据。可以直接从json获取。

library(RCurl)
library(jsonlite)

p <- getURL("http://www.gallop.co.za/cache/horses.json")
fromJSON(p)

【讨论】：

这太不可思议了。你怎么知道这个位置是gallop.co.za/cache/horses.json？
您可以使用firefox浏览器中的firebug或chrome中的F12来检查网络传输。然后根据它，找出数据存储在哪里。