【发布时间】:2017-08-01 03:11:51
【问题描述】:
我使用过 Python 2.7 和 Scrapy 1.3.0
我需要设置代理才能访问网络
如何设置?
这是我的解析脚本
if theurl not in self.ProcessUrls:
self.ProcessUrls.append(theurl)
yield scrapy.Request(theurl, callback=self.parse)
如果我需要确认爬取新的不重复怎么办?如果不重复需要抓取这个新的 url
【问题讨论】:
-
我无法设置环境变量,会影响其他服务和工作,我可以在scrapy Script上设置吗?
-
查看上面链接中的第二个答案
-
在哪里可以设置 request.meta?