【发布时间】:2015-01-05 12:49:26
【问题描述】:
我正在尝试使用 scrapy 抓取多个网页。页面链接如下:
http://www.example.com/id=some-number
在下一页中,末尾的数字减少了 1。
所以我正在尝试构建一个可以导航到其他页面并抓取它们的蜘蛛。我的代码如下:
import scrapy
import requests
from scrapy.http import Request
URL = "http://www.example.com/id=%d"
starting_number = 1000
number_of_pages = 500
class FinalSpider(scrapy.Spider):
name = "final"
allowed_domains = ['example.com']
start_urls = [URL % starting_number]
def start_request(self):
for i in range (starting_number, number_of_pages, -1):
yield Request(url = URL % i, callback = self.parse)
def parse(self, response):
**parsing data from the webpage**
这进入了一个无限循环,在打印页码时我得到了负数。我认为这是因为我在我的 parse() 函数中请求一个页面。
但是here 给出的示例可以正常工作。我哪里错了?
【问题讨论】:
标签: python web-scraping scrapy