【问题标题】:R Scraping html webpage using XMLR使用XML抓取html网页
【发布时间】:2017-03-18 21:21:28
【问题描述】:

我正在尝试使用以下代码抓取此网页。

library(XML)
url <- html("http://www.gallop.co.za/")
doc <- htmlParse(url)
lat <- xpathSApply(doc,path="//p[@id=Racecards]",fun = xmlGetAttr , name = 'Racecards')

我查看了网页,我想抓取的表格是比赛卡表,主要是为了获取比赛卡数据所在位置的链接。

我使用了选择器小工具,它返回 xml 路径:

//*[(@id = "Racecards")]

但是,当我使用 R 代码时,它返回一个零列表。感觉好像我在某种程度上弄错了 xml 路径,返回表格但也返回表格中的链接的正确方法是什么?

【问题讨论】:

    标签: html xml web-scraping rstudio rcurl


    【解决方案1】:

    好像数据是通过json传输的,使用js插入到html中。所以你无法从html 获取数据。可以直接从json获取。

    library(RCurl)
    library(jsonlite)
    
    p <- getURL("http://www.gallop.co.za/cache/horses.json")
    fromJSON(p)
    

    【讨论】:

    • 这太不可思议了。你怎么知道这个位置是gallop.co.za/cache/horses.json
    • 您可以使用firefox浏览器中的firebug或chrome中的F12来检查网络传输。然后根据它,找出数据存储在哪里。
    猜你喜欢
    • 2018-09-29
    • 2020-07-20
    • 2012-07-27
    • 2021-07-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多