【发布时间】:2020-06-26 14:03:35
【问题描述】:
我正在尝试制作网页抓取工具。我在网上获得了一个代理列表,然后我检查了该列表并删除了不工作的代理。但是,当我的爬虫运行时,其中一些被网站阻止或代理完全死机。如何从我的列表中删除不良代理?我尝试在 for 循环中 proxies.remove(proxy),但它说列表的大小发生了变化。
【问题讨论】:
标签: python-3.x web-scraping proxy python-requests
我正在尝试制作网页抓取工具。我在网上获得了一个代理列表,然后我检查了该列表并删除了不工作的代理。但是,当我的爬虫运行时,其中一些被网站阻止或代理完全死机。如何从我的列表中删除不良代理?我尝试在 for 循环中 proxies.remove(proxy),但它说列表的大小发生了变化。
【问题讨论】:
标签: python-3.x web-scraping proxy python-requests
假设这是一个 python 列表...您可以在开始时发出一个基本的 get 请求并通过执行类似的操作来检查错误
r = requests.get(url)
if r.status_code == (the bad error code you are getting ex. 404);
proxies.remove(proxy)
print(f"Removed {proxy}")
...这似乎不起作用的原因是因为您没有检查 for 循环中的任何内容,而只是删除了代理。
【讨论】: