【发布时间】:2014-01-02 06:36:22
【问题描述】:
我在 start_urls
中有一个网址爬虫第一次加载页面时,首先显示403错误页面,之后爬虫关闭。
我需要做的是在该页面上填写一个验证码,然后它会让我访问该页面。我知道如何编写绕过验证码的代码,但是我应该将这段代码放在我的蜘蛛类中的什么位置?
遇到相同问题时,我也需要在其他页面上添加它。
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
class MySpider(CrawlSpider):
name = "myspider"
allowed_domains = ["mydomain.com"]
start_urls = ["http://mydomain.com/categories"]
handle_httpstatus_list = [403] #Where do I now add the captcha bypass code?
download_delay = 5
rules = [Rule(SgmlLinkExtractor(allow=()), callback='parse_item')]
def parse_item (self, response):
pass
【问题讨论】:
标签: python web-crawler scrapy