通过多个页面抓取 Web 表格（缺少某些行）答案

【问题标题】：Scraping a web table through multiple pages (some rows are missing)通过多个页面抓取 Web 表格（缺少某些行）
【发布时间】：2021-12-31 01:30:42
【问题描述】：

我想使用rvest 从https://irelandsgreatwardead.ie/the-archive/ 刮一张表（包含关于 31,385 名士兵的信息）。

library(rvest)
library(dplyr)

page <- read_html(x = "https://irelandsgreatwardead.ie/the-archive/")    
table <- page             %>% 
  html_nodes("table")     %>%  
  html_table(fill = TRUE) %>%
  as.data.frame()

这有效，但仅适用于前 10 名士兵。在源代码中，我也只能看到前 10 名士兵的信息。任何有关如何与其他士兵一起获得行数的帮助将不胜感激！

谢谢，祝你有美好的一天！

【问题讨论】：

如果你使用第2页等的链接，你能得到下10个吗？
感谢您的评论，卡卢姆！不幸的是，第 2 页的 URL 与第 1 页的 URL 相同。还是您引用了其他内容？

标签： r web-scraping html-table rvest rselenium

【解决方案1】：

这里是RSelenium 解决方案，

您可以循环页面提取表并加入上一个表。

首先启动浏览器，

  library(RSelenium)
    driver = rsDriver(browser = c("firefox"))
    remDr <- driver[["client"]]
    remDr$navigate(url)

第 1 部分：从第一页提取表格并存储在 df，

df = remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table() 
df = df[[1]]
#removing last row which is non-esstential
df = df[-nrow(df),]

第 2 部分：循环浏览第 2 页到第 5 页

for(i in 2:5){ 
#Building xpath for each page
xp = paste0('//*[@id="table_1_paginate"]/span/a[', i, ']')
cc <- remDr$findElement(using = 'xpath', value = xp)
cc$clickElement()

# Three second gap is given for the webpage to load
Sys.sleep(3)
df1 = remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table() 
df1 = df1[[1]]
df1 = df1[-nrow(df1),]

#Joining previous table `df` and present table `df1`
df = rbind(df, df1)
}

第 3 部分：循环浏览其余的第 6 至 628 页

剩余页面的xpath 保持不变。因此，我们必须重复此代码块 623 次才能从剩余页面中获取表格。

for (i in 1:623) {
x = i
cc <- remDr$findElement(using = 'xpath', value = '//*[@id="table_1_paginate"]/span/a[4]')
cc$clickElement()
Sys.sleep(3)
df1 = remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table() 
df1 = df1[[1]]
df1 = df1[-nrow(df1),]
df = rbind(df, df1)
}

现在我们有了df，里面有所有士兵的信息。

【讨论】：

非常感谢您的帮助！你的代码极大地帮助我抓取了前 50 名士兵的信息。您对我如何访问下一页中列出的其他士兵（总共 31,385 名士兵）有什么建议吗？在类似的项目中，我使用了一个遍历页面 URL 的 for 循环。不幸的是，这种方法在这里不起作用，因为当您转到另一个页面时 URL 不会改变。
我没有过多地使用 selenium，但我认为它可以提交要在页面表单上显示为“全部”的数字。我还假设需要增加超时！
呃。那个表结构太可怕了。到目前为止，我一直在手机上浏览它。整个互动都很糟糕。
编辑答案以循环浏览页面。
这太棒了！！它仅在 i= 6 或更高时给出错误消息，与@CALUMPolwart 提到的内容有关。您对如何解决此问题以从第 6 页开始增加页码有任何提示吗？

【解决方案2】：

library(RSelenium)
driver = rsDriver(browser = c("firefox"))

remDr <- driver[["client"]]
url <- 'https://irelandsgreatwardead.ie/the-archive/'
remDr$navigate(url)

# Locate the next page link
webElem <- remDr$findElement(using = "css", value = "a[data-dt-idx='3'")

# Click that link
webElem$clickElement()

# Get that table
remDr$getPageSource()[[1]] %>% 
  read_html() %>%
  html_table()

您的 for 循环需要从值 3 开始（这是第二页！）。在第二页上，它变成 4，等等。但它永远不会超过 5。因为它是“设计”的，所以你会循环 3:5，然后在 5 处每次保持在 5 处。

【讨论】：