【问题标题】:Scrapy provides ambiguous results in paginationScrapy 在分页中提供了模棱两可的结果
【发布时间】:2020-10-20 19:10:46
【问题描述】:

我创建了一个做分页的爬虫。使用来自同一网站的不同链接的相同脚本,分页被“过滤的异地请求”停止。在scrapy Request中打开功能“dont_filter”会在页面上运行无限循环。想知道脚本如何在不进行任何更改的情况下提供不同的结果?

【问题讨论】:

    标签: python-3.x web-scraping pagination scrapy


    【解决方案1】:

    您应该提供您的代码,以便我们提供更多帮助。

    确保您的蜘蛛的字段allowed_domains 中只有域。例如:

    class MySpider(scrapy.Spider):
        name = 'example'
        allowed_domains = ['example.com'] # Don't use 'https://example.com/some/path/here'
        start_urls = ['https://example.com/some/path/here']
    

    显然,allowed_domains 中的域必须与您创建请求的域相匹配。

    您也可以完全删除此属性。更多详情请关注allowed_domainshere

    【讨论】:

    • 谢谢你的想法,我不敢相信这会导致如此严重的问题
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-10-19
    • 2016-12-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多