使用 R 提取部分 HTML 标记

【问题标题】：Extract parts of HTML tag using R使用 R 提取部分 HTML 标记
【发布时间】：2015-03-23 08:32:50
【问题描述】：

简单地说，我正在尝试解析一个 HTML 文档，该文档在某处包含以下标签：

<meta property="article:tag" content="myContent"/>

如何使用 R 返回此标签的“内容”部分？

我一直在尝试用 XML 包来做这件事，但我想我正在走向一个兔子洞......

【问题讨论】：

标签： html r parsing tags

【解决方案1】：

使用 XML 包，看起来我可以执行以下操作：

src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
print(unlist(tags)[["content"]])

【讨论】：