【发布时间】:2021-08-04 09:08:54
【问题描述】:
完整的菜鸟试图刮掉这个页面上的表格,我得到的最远的地方是加载 rvest 包。我的问题是:
- 我找不到合适的元素;我通过检查器尝试的元素是“table.w782.comm.lsjz”,但它返回一个长度为 0 的列表,并在 html_table() 之后执行 %>% .[[1]] 即
fund_page %>% html_nodes("table.w782.comm.lsjz") %>% html_table() %>% .[[1]]也不起作用
(.[[1]] 中的错误:下标超出范围)
fund_link <- "https://fundf10.eastmoney.com/jjjz_510300.html"
fund_page <- read_html(fund_link)
fund_table <- fund_page %>% html_nodes("table.w782.comm.lsjz") %>% html_table()
- 该表有多个页面 (113),但单击第 2 页不会重新加载 html,因此我不知道如何将所有 113 页数据刮到一个页面上...
真的很感激任何关于我能做什么的指针......
【问题讨论】:
-
fundf10.eastmoney.com/… 找到了一个更简单的网站版本,但仍然......所有代码都没有工作
-
找不到表的原因是因为从技术上讲,代码中不存在表。相反,代码中有一个创建表的脚本。我知道它“基本上是同一件事”,但事实并非如此。您首先必须清理代码,以便那里只有一个表,没有 {{if}} 语句或脚本信息。
-
以为是我的问题,因为电源查询有效并从中提取了一个表,所以它一定在那里!
标签: r web-scraping