使用 R 抓取 aspx 网页答案

【问题标题】：web scraping aspx web page with R使用 R 抓取 aspx 网页
【发布时间】：2017-02-09 19:35:08
【问题描述】：

我正在尝试在 R 中抓取“http://www.phl.org/Pages/Flight-Information.aspx#/Arrivals”网页，以获取费城国际机场航班的到达时间表（然后最终离开）。这是我目前写的代码：

require("rvest")
require("dplyr")

url1 <- "http://www.phl.org/Pages/Flight-Information.aspx#/Arrivals"
url2 <- '//*[@id="ctl00_pageWrapper"]/main/div[3]/table'

Trial_data <- url1 %>% read_html() %>% html_nodes(xpath=url2) %>%    html_table() %>% data.frame()

但是，这只会抓取表格的标题，而不是表格数据本身。我检查了网站 HTML 代码中的网页元素，并在我的脚本中使用了 Xpath。作为一个试验，我使用相同的代码来抓取一个维基百科表格，它工作得非常好。我觉得问题出在 .aspx 网页上。

非常感谢您对此的任何帮助！

【问题讨论】：

据我所见，表格内容是使用 AngularJs 动态填充的，因此如果不先运行并获取 AJAX 调用的结果，这些数据可能不可用。
rvest 只是抓取 HTML，因此不会加载数据。您可以使用 RSelenium 加载页面（在此过程中运行任何必要的脚本），然后 rvest 进行解析，但它的工作量更大。不过，鉴于这些特定数据，我确信某处有一个 API 可以以更可用的格式公开这些相同的数据，因此下一步可能会更好地进行一些搜索。
Here's an API.
...所以你的电话可以像arrivals <- jsonlite::fromJSON('http://flightinfo.phlapi.com/direction/arrival')一样简单
@alistaire ，非常感谢您的回复。这将我推向正确的方向，非常感谢！

标签： asp.net r xpath web-scraping

【解决方案1】：

上面的 cmets 是正确的，html 代码是动态填充的，因此 rvest 库将无法工作。如果您在打开开发人员工具的情况下加载网页并检查下载的文件，则有几个 XHR 类型的文件。如果您检查这些文件，这些文件名为 FlightTracker.ashx 的文件是一个 JSON 文件，其中包含您请求的信息。

确定文件和 curl 后，只需发出 httr 请求并解析 JSON 文件即可：

library(httr)
library(jsonlite)

url<-'http://www.phl.org/_layouts/15/Fuseideas.PHL.SharePoint/FlightTrackerXml.ashx?dir=A'
flightdata<-GET(url)

output<- content(flightdata, as="text") %>% fromJSON(flatten=FALSE)

仅供参考：您可能需要查看此文件：
'http://www.phl.org/Style%20Library/PHL/Scripts/Angular/iata-data.jsn' 包含有关航空公司和机场的缩写、名称和链接的信息。

【讨论】：

感谢您的回答，代码有效，它真的帮助了我！我仍然找不到 FlightTracker.ashx 文件。我还看到该网址与我使用的网址略有不同。你能告诉我你是如何找到 url 和 .ashx 文件的吗？
打开您想要的网页。菜单和选项名称会因您使用的浏览器而异。然后打开页面，打开网络检查器选项（在开发人员工具菜单下），选择网络选项卡，然后重新加载网页。网络标签将列出与网页相关的所有文件：html、css、js 和 json。然后就是查看每个文件以找到您的数据。