【问题标题】:Get text of a cell table with R and XPath使用 R 和 XPath 获取单元格表的文本
【发布时间】:2013-05-31 09:49:12
【问题描述】:

我是 R 和 XPath 的初学者, 我正在尝试在 CRAN 中抓取对象以了解抓取的工作原理。

我想从 http://cran.r-project.org/web/packages/XML/index.html 的包中获取依赖项

元素是“bitops, RCurl”

XPath 应该是这个/html/body/table/tbody/tr[4]/td[2]

这是我的 R 代码

urlContent <- htmlParse("http://cran.r-project.org/web/packages/abc/index.html")
xpathSApply(doc=urlContent,path="/html/body/table/tbody/tr[4]/td[2]")

但我不明白问题出在哪里,你能帮帮我吗?

【问题讨论】:

  • 我用“//tr[4]/td[2]”解决了问题

标签: r xpath


【解决方案1】:

另一个聪明的选择是使用readHTMLTable,避免写xpath

在这里,我正在读取第一个表,而不是访问第一列等于 Suggests: 的行。

library(XML)
dat <- readHTMLTable('http://cran.r-project.org/web/packages/XML/index.html')[[1]]
dat[dat[,1] == "Suggests:",]
Version:      3.96-1.1
3 Suggests: bitops, RCurl

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-07-30
    • 1970-01-01
    • 1970-01-01
    • 2018-05-06
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多