【发布时间】:2017-02-03 09:35:42
【问题描述】:
我正在使用 Scrapy 编写网络抓取工具。我需要访问的一些站点需要我与它们交互,所以我使用 Splash 发出请求,这允许我这样做。这目前工作得很好。
为了防止我的爬虫被阻止,我希望请求通过一组代理服务器,所以我为此使用了 Scrapoxy。
我现在遇到的问题是,据我所知,请求按以下方式流动:-
Scrapy -> Scrapoxy -> Splash -> 目标网站
而不是:-
Scrapy -> Splash -> Scrapoxy -> 目标网站
可以解决这个问题吗?
如果没有,是否可以使用任何其他可以解决此问题的无头浏览器或代理 IP 旋转器?
【问题讨论】:
-
Splash 的
Request有一个set_proxymethod。你可能会适应用于集成 Splash 和 Crawlera 的 this Splash script。
标签: web-scraping scrapy scrapy-splash splash-js-render