Scrapy 在分页中提供了模棱两可的结果

【问题标题】：Scrapy provides ambiguous results in paginationScrapy 在分页中提供了模棱两可的结果
【发布时间】：2020-10-20 19:10:46
【问题描述】：

我创建了一个做分页的爬虫。使用来自同一网站的不同链接的相同脚本，分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果？

【问题讨论】：

标签： python-3.x web-scraping pagination scrapy

【解决方案1】：

您应该提供您的代码，以便我们提供更多帮助。

确保您的蜘蛛的字段allowed_domains 中只有域。例如：

class MySpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
    start_urls = ['https://example.com/some/path/here']

显然，allowed_domains 中的域必须与您创建请求的域相匹配。

您也可以完全删除此属性。更多详情请关注allowed_domainshere。

【讨论】：

谢谢你的想法，我不敢相信这会导致如此严重的问题