【发布时间】:2019-11-06 07:32:11
【问题描述】:
我正在尝试学习如何使用 rvest 包进行一些抓取。我正在使用这个url 来加载信息,并且我正在尝试获取在 URL 中标记为“高级”的表的信息:
当我尝试加载信息时,我所能得到的只是第一个表。我的意思是,当我使用谷歌浏览器进行检查时,我看到表中的数字标记为 class="right"。所以这就是我尝试过的:
library(rvest)
library(stringr)
url = url("https://www.basketball-reference.com/players/l/leonaka01.html")
read = html_nodes(read_html(url),
'.right')
read2 = str_replace_all(html_text(read),
"[\r\n\t]" , "")
我看到的是 read 是一个包含 351 个值的列表。好的,那就是他检测到了 351 个标记为正确的值。如果我得到最后一个,read2[351],我会看到“29.3”,这是第一个表的最后一个值。
那么...我怎样才能获得有关其他表的信息?我从来没有告诉 R 得到第一个表,我想我会得到所有表的所有信息,我的下一步是以某种方式过滤“高级”表值。
问候
【问题讨论】:
标签: r web-scraping rvest