【问题标题】:Error web scraping with rvest - Error in open.connection(x, "rb") : HTTP error 403使用 rvest 进行网络抓取时出错 - open.connection(x, \"rb\") 错误:HTTP 错误 403
【发布时间】:2023-01-07 20:07:45
【问题描述】:

我在使用以下代码时遇到了一些问题:

state <- read_html("https://www.state.gov/covid-19-recovery/vaccine-deliveries/")

当我收到以下错误时:Error in open.connection(x, "rb") : HTTP error 403.

这段代码之前一直对我有用,并且可以在另一台笔记本电脑上使用,但不能在我的主要笔记本电脑上使用,所以我知道我搞砸了。任何想法将不胜感激。谢谢!

【问题讨论】:

  • 403 响应表示服务器已确定请求被禁止。并非所有服务器都喜欢被抓取。如果您过于频繁地调用该端点,您可能已被阻止。如果服务器阻止了您的请求,您将无能为力。这取决于服务器管理员。

标签: r web-scraping


【解决方案1】:

你可以绕过polite

library(tidyverse)
library(rvest)
#> 
#> Attaching package: 'rvest'
#> The following object is masked from 'package:readr':
#> 
#>     guess_encoding
library(polite)

page <- "https://www.state.gov/covid-19-recovery/vaccine-deliveries/" %>% 
  bow() %>% 
  scrape()

page %>% 
  html_elements(".tadv-color") %>% 
  html_text2() %>% 
  pluck(2) %>% 
  parse_number()
#> [1] 682437530

创建于 2023-01-07 reprex v2.0.2

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-22
    • 1970-01-01
    • 2018-12-01
    • 1970-01-01
    • 2016-01-22
    • 2020-10-18
    • 2017-03-05
    • 1970-01-01
    相关资源
    最近更新 更多