【问题标题】:Handling HTML web-scraping errors in R with XML package使用 XML 包处理 R 中的 HTML 网页抓取错误
【发布时间】:2012-07-27 04:22:58
【问题描述】:

我正在尝试像这样抓取一个网页 http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html,并使用以下代码,我收到一个错误,提示 HTML 不正确:

library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)

我看过this 的帖子,它演示了如何使用Internet Explorer 和rcom 包来修复格式不正确的HTML,然后将其提供给解析器。然而,有问题的 HTML 通过http://validator.w3.org 的验证。

还有哪些其他方法可以使用 XML 包来处理与 HTML 解析相关的错误?

【问题讨论】:

    标签: r xml-parsing web-scraping


    【解决方案1】:

    试一试,看看它是否符合您的要求:

    library(RCurl)
    library(XML)
    url   <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
    doc   <- htmlTreeParse(url, useInternalNodes=TRUE)
    

    我还建议您查看以下资源:

    1. talkstats.com thread on web scraping (great beginner examples)
    2. w3schools.com site on html stuff (very helpful)

    【讨论】:

    • 简单的解决方案——所以我实际上并没有遇到错误,而是错误地使用了该工具。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-09-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多