【发布时间】:2015-03-23 08:32:50
【问题描述】:
简单地说,我正在尝试解析一个 HTML 文档,该文档在某处包含以下标签:
<meta property="article:tag" content="myContent"/>
如何使用 R 返回此标签的“内容”部分?
我一直在尝试用 XML 包来做这件事,但我想我正在走向一个兔子洞......
【问题讨论】:
简单地说,我正在尝试解析一个 HTML 文档,该文档在某处包含以下标签:
<meta property="article:tag" content="myContent"/>
如何使用 R 返回此标签的“内容”部分?
我一直在尝试用 XML 包来做这件事,但我想我正在走向一个兔子洞......
【问题讨论】:
使用 XML 包,看起来我可以执行以下操作:
src <- htmlTreeParse('http://mywebsite.com/mypage.html',useInternalNodes=TRUE)
tags <- xpathApply(src, "//meta[@property='article:tag']", xmlAttrs)
print(unlist(tags)[["content"]])
【讨论】: