【问题标题】:Troubles with webscraping, selector gadget and rvest网页抓取、选择器小工具和 rvest 的问题
【发布时间】:2021-07-18 09:50:46
【问题描述】:

我对网络抓取相当陌生,目前正在努力处理以下页面的表格:

https://www.ggesports.com/en-us/stats/lol/global/Team

我测试了从表格外的网站抓取文本,这没有问题,但是当我尝试抓取表格的一列时,它只返回输出“character(0)”。

我使用选择器小工具来识别特定的 CSS 选择器。之后我到目前为止尝试过:

library(rvest)
library(dplyr)

url <- "https://www.ggesports.com/en-us/stats/lol/global/Team"
Stats <- read_html(url)


Name <- hot100 %>% 
  rvest::html_nodes('body') %>% 
  xml2::xml_find_all("//span[contains(@class, 'team-name')]") %>% 
  rvest::html_text()
Name

# and

Name_html <- html_nodes(Stats,'.team-name')
Name <- html_text(Name_html)
Name

我将不胜感激。 提前谢谢大家!

【问题讨论】:

    标签: r web-scraping rvest


    【解决方案1】:

    数据是从您可以在网络选项卡中找到的另一个端点动态提取的。向该端点发出请求:

    library(jsonlite)
    
    data <- jsonlite::read_json('https://www.ggesports.com/en-us/stats/lol/global/Team/GetRankingList?season=-1&name=&regionId=50', simplifyVector = T)
    

    【讨论】:

      猜你喜欢
      • 2020-05-13
      • 1970-01-01
      • 2020-05-15
      • 2023-03-22
      • 1970-01-01
      • 1970-01-01
      • 2021-12-10
      • 1970-01-01
      • 2017-09-11
      相关资源
      最近更新 更多