【发布时间】:2012-07-27 04:22:58
【问题描述】:
我正在尝试像这样抓取一个网页 http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html,并使用以下代码,我收到一个错误,提示 HTML 不正确:
library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)
我看过this 的帖子,它演示了如何使用Internet Explorer 和rcom 包来修复格式不正确的HTML,然后将其提供给解析器。然而,有问题的 HTML 通过http://validator.w3.org 的验证。
还有哪些其他方法可以使用 XML 包来处理与 HTML 解析相关的错误?
【问题讨论】:
标签: r xml-parsing web-scraping