【发布时间】:2015-12-24 12:23:57
【问题描述】:
我正在尝试限制 Scrapy 中 CrawlSpider 中每个 URL 的爬网页面数。我有一个 start_urls 列表,我想对每个 URL 中正在抓取的页面数量设置一个限制。一旦达到限制,蜘蛛应该移动到下一个 start_url。
我知道设置中有 DEPTH_LIMIT 参数,但这不是我想要的。
任何帮助都会很有用。
这是我目前拥有的代码:
class MySpider(CrawlSpider):
name = 'test'
allowed_domains = domainvarwebsite
start_urls = httpvarwebsite
rules = [Rule(LinkExtractor(),
callback='parse_item',
follow=True)
]
def parse_item(self, response):
#here I parse and yield the items I am interested in.
编辑
我试图实现这一点,但我得到了 exceptions.SyntaxError: invalid syntax (filter_domain.py, line 20) 。有什么想法吗?
再次感谢。
filter_domain.py
import urlparse
from collections import defaultdict
from scrapy.exceptions import IgnoreRequest
class FilterDomainbyLimitMiddleware(object):
def __init__(self, domains_to_filter):
self.domains_to_filter = domains_to_filter
self.counter = defaultdict(int)
@classmethod
def from_crawler(cls, crawler):
settings = crawler.settings
spider_name = crawler.spider.name
max_to_filter = settings.get('MAX_TO_FILTER')
o = cls(max_to_filter)
return o
def process_request(self, request, spider):
parsed_url = urlparse.urlparse(request.url)
(LINE 20:) if self.counter.get(parsed_url.netloc, 0) < self.max_to_filter[parsed_url.netloc]):
self.counter[parsed_url.netloc] += 1
else:
raise IgnoreRequest()
settings.py
MAX_TO_FILTER = 30
DOWNLOADER_MIDDLEWARES = {
'myproject.filter_domain.FilterDomainbyLimitMiddleware' :400,
}
【问题讨论】:
-
第 20 行的 ':' 之前有一个前导 ')'。
标签: python web-crawler scrapy limit