【发布时间】:2020-10-20 19:10:46
【问题描述】:
我创建了一个做分页的爬虫。使用来自同一网站的不同链接的相同脚本,分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果?
【问题讨论】:
标签: python-3.x web-scraping pagination scrapy
我创建了一个做分页的爬虫。使用来自同一网站的不同链接的相同脚本,分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果?
【问题讨论】:
标签: python-3.x web-scraping pagination scrapy
您应该提供您的代码,以便我们提供更多帮助。
确保您的蜘蛛的字段allowed_domains 中只有域。例如:
class MySpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
start_urls = ['https://example.com/some/path/here']
显然,allowed_domains 中的域必须与您创建请求的域相匹配。
您也可以完全删除此属性。更多详情请关注allowed_domainshere。
【讨论】: