【发布时间】:2016-08-06 08:21:10
【问题描述】:
我有以下用 R 编写的代码,我想从 this particular webpage 获取一些名称。
library(RCurl)
library(XML)
x <- getURL("http://www.encyclopedia-titanica.org/titanic-passengers-crew-lived/country-17/england.html")
x_2 <- htmlParse(x)
x_3 <- readHTMLTable(x_2)
但是,每当我查看 x_3 的内容时,我都会得到以下信息...
x_3
named list()
似乎 readHTMLTable 函数无法获取表格。谁能帮我从这个网页获取乘客的姓名,而无需复制和粘贴?非常感激。
【问题讨论】:
-
您需要先提取表格元素,然后才能使用 readHTMLTable()。使用 XPath - 类似于
tableVar <- xpathApply(x_2, "//table[@id='manifest']")。那么你应该可以做到x_3 <- readHTMLTable(tableVar) -
(顺便说一句,我的 ATM 遇到防火墙问题,所以我无法测试这个......)
标签: r xml-parsing web-scraping