scrapy不抓取重复的网页解决办法

classscrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback, flags, cb_kwargs])

Scrapy的官方文档：

http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request

Ｒequest函数在文档中的定义：

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

在这儿， request的 dont_filter 设置为Ｔrue就可以了

也就是说

yield scrapy.Request(url=nexturl, callback=self.parse,dont_filter=True)
搞定

2021-09-27
2021-08-11
2021-09-10
2021-05-02
2021-09-24
2021-10-13
2021-12-04