【发布时间】:2018-01-15 03:29:25
【问题描述】:
我是 R 和网络抓取的新手。我正在尝试将世界银行网站上的表格读入 R。
这里以其中一个项目的 url 链接为例(我的目标是阅读“基本信息”下的左表):http://projects.worldbank.org/P156880/?lang=en&tab=details
我正在使用 Chrome 的 Dedvtools 来识别该特定表所需的选择器节点。
这是我的代码:
library(rvest)
url <- "http://projects.worldbank.org/P156880/?lang=en&tab=details"
details <- url %>%
read_html() %>%
html_nodes(css = '#projectDetails > div:nth-child(2) > div.column-left > table') %>%
html_table()
不幸的是,我得到一个空列表:
> details
list()
任何有关如何解决此问题的帮助将不胜感激。
【问题讨论】:
-
表格是用 JavaScript 渲染的,你需要使用 PhantomJS 或类似的东西来实际运行 underline JavaScript 并得到正确渲染的 HTML。
标签: r web-scraping rvest