【发布时间】:2019-10-11 13:42:28
【问题描述】:
我正在尝试从https://www.xercise4less.co.uk/find-a-gym/ 中抓取所有健身房位置的数据。
在开发人员工具中,我找到了一个指向 Web API URL 的指针,该 URL 应该将此信息存储在 https://www.xercise4less.co.uk/Umbraco/Api/FindAGymApi/GetAll 下,但是当我在浏览器中运行它时,我得到了
“ObjectContent`1”类型无法序列化内容类型“text/xml”的响应正文;字符集=utf-8'
同样,如果我运行以下代码:
# user_agent argument is optional here and results are the same whether I include it or not
httr::GET('https://www.xercise4less.co.uk/Umbraco/Api/FindAGymApi/GetAll', httr::user_agent("httr"))
关于如何解决这个问题的任何想法?
或者,我可以(几乎)通过
访问所有健身房 IDlibrary(rvest)
library(magrittr)
url <- "https://www.xercise4less.co.uk/find-a-gym/"
my_pg <- read_html(url)
my_pg %>% html_nodes('select > option')
但是我仍然不确定如何遍历所有 ID 以获得完整的坐标/位置列表。 感谢您的任何指点。
【问题讨论】:
标签: r web-scraping rvest httr