使用 XML 包处理 R 中的 HTML 网页抓取错误答案

【问题标题】：Handling HTML web-scraping errors in R with XML package使用 XML 包处理 R 中的 HTML 网页抓取错误
【发布时间】：2012-07-27 04:22:58
【问题描述】：

我正在尝试像这样抓取一个网页 http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html，并使用以下代码，我收到一个错误，提示 HTML 不正确：

library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)

我看过this 的帖子，它演示了如何使用Internet Explorer 和rcom 包来修复格式不正确的HTML，然后将其提供给解析器。然而，有问题的 HTML 通过http://validator.w3.org 的验证。

还有哪些其他方法可以使用 XML 包来处理与 HTML 解析相关的错误？

【问题讨论】：

标签： r xml-parsing web-scraping

【解决方案1】：

试一试，看看它是否符合您的要求：

library(RCurl)
library(XML)
url   <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
doc   <- htmlTreeParse(url, useInternalNodes=TRUE)

我还建议您查看以下资源：

【讨论】：

简单的解决方案——所以我实际上并没有遇到错误，而是错误地使用了该工具。