使用 rvest 进行网络抓取时出错 - open.connection(x, \"rb\") 错误：HTTP 错误 403答案

【问题标题】：Error web scraping with rvest - Error in open.connection(x, "rb") : HTTP error 403使用 rvest 进行网络抓取时出错 - open.connection(x, \"rb\") 错误：HTTP 错误 403
【发布时间】：2023-01-07 20:07:45
【问题描述】：

我在使用以下代码时遇到了一些问题：

state <- read_html("https://www.state.gov/covid-19-recovery/vaccine-deliveries/")

当我收到以下错误时：Error in open.connection(x, "rb") : HTTP error 403.

这段代码之前一直对我有用，并且可以在另一台笔记本电脑上使用，但不能在我的主要笔记本电脑上使用，所以我知道我搞砸了。任何想法将不胜感激。谢谢！

【问题讨论】：

403 响应表示服务器已确定请求被禁止。并非所有服务器都喜欢被抓取。如果您过于频繁地调用该端点，您可能已被阻止。如果服务器阻止了您的请求，您将无能为力。这取决于服务器管理员。

标签： r web-scraping

【解决方案1】：

你可以绕过polite

library(tidyverse)
library(rvest)
#> 
#> Attaching package: 'rvest'
#> The following object is masked from 'package:readr':
#> 
#>     guess_encoding
library(polite)

page <- "https://www.state.gov/covid-19-recovery/vaccine-deliveries/" %>% 
  bow() %>% 
  scrape()

page %>% 
  html_elements(".tadv-color") %>% 
  html_text2() %>% 
  pluck(2) %>% 
  parse_number()
#> [1] 682437530

^{创建于 2023-01-07 reprex v2.0.2}

【讨论】：