【问题标题】:How to deal with bad proxies with Python requests如何使用 Python 请求处理不良代理
【发布时间】:2020-06-26 14:03:35
【问题描述】:

我正在尝试制作网页抓取工具。我在网上获得了一个代理列表,然后我检查了该列表并删除了不工作的代理。但是,当我的爬虫运行时,其中一些被网站阻止或代理完全死机。如何从我的列表中删除不良代理?我尝试在 for 循环中 proxies.remove(proxy),但它说列表的大小发生了变化。

【问题讨论】:

    标签: python-3.x web-scraping proxy python-requests


    【解决方案1】:

    假设这是一个 python 列表...您可以在开始时发出一个基本的 get 请求并通过执行类似的操作来检查错误

    r = requests.get(url)
    if r.status_code == (the bad error code you are getting ex. 404); 
        proxies.remove(proxy)
        print(f"Removed {proxy}")
    

    ...这似乎不起作用的原因是因为您没有检查 for 循环中的任何内容,而只是删除了代理。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-07-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-03-07
      相关资源
      最近更新 更多