【问题标题】:Extract parts of HTML tag using R使用 R 提取部分 HTML 标记
【发布时间】:2015-03-23 08:32:50
【问题描述】:

简单地说,我正在尝试解析一个 HTML 文档,该文档在某处包含以下标签:

<meta property="article:tag" content="myContent"/>

如何使用 R 返回此标签的“内容”部分?

我一直在尝试用 XML 包来做这件事,但我想我正在走向一个兔子洞......

【问题讨论】:

    标签: html r parsing tags


    【解决方案1】:

    使用 XML 包,看起来我可以执行以下操作:

    src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
    tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
    print(unlist(tags)[["content"]])
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-01-04
      • 2013-07-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多