【发布时间】:2018-05-06 11:55:40
【问题描述】:
我想从Here 中提取 Holdings 表 我有以下代码:
library(rvest)
turl = 'https://whalewisdom.com/stock/spy'
test_html = read_html(turl)
df<-html_table(test_html)
但是在运行时出现以下错误:
矩阵中的错误(NA_character_,nrow = n,ncol = maxp):无效 'ncol' 值(太大或 NA)另外:警告消息:1:在 max(p) : max 没有非缺失参数;返回-Inf 2:在 matrix(NA_character_, nrow = n, ncol = maxp) : NAs 由 强制转换为整数范围
【问题讨论】:
-
我不确定这是否是整个问题,但该表似乎在页面加载后由 AJAX 调用异步填充。我没有在浏览器的“查看源代码”中看到表的数据,也没有在 read_html 返回的数据中看到。我不确定是否有用于抓取异步加载的网页的 R 解决方案,但也许其他人知道。非 R 解决方案可能是 headless browsers
-
谢谢。这也是我的担心。我找不到源代码中嵌入的表格页面的链接,所以想知道从哪里调用数据。
标签: r web-scraping html-table rvest