【发布时间】:2019-04-26 03:58:45
【问题描述】:
我想抓取有关网站的信息。我像这样使用代理IP:
def process_request(self, request, spider):
item = random.choice(ippool)
request.meta['proxy'] = "http://"+item['ip']
request.meta['dont_redirect'] = True
但它会引发一些错误:
调试:已爬网 (302)、已爬网 (403)、
信息:忽略响应,500 内部服务器错误
等等。我该如何解决这些问题。
另一方面,由于是代理 IP,因此速度很慢。如果我想在其中添加多进程。我该怎么办?
谢谢。
【问题讨论】:
标签: python python-3.x scrapy multiprocess