【问题标题】:scrapy-splash script not finding CSS selectorscrapy-splash 脚本找不到 CSS 选择器
【发布时间】:2017-07-05 00:05:50
【问题描述】:

我正在尝试制作一个 scrapy-splash 脚本来获取以下食物的链接:

https://www.realcanadiansuperstore.ca/Food/Meat-%26-Seafood/c/RCSS001004000000

当你第一次访问它时,它会让你选择一个地区。我想我已经通过在下面的代码中设置 cookies dict 正确地解决了这个问题。我正在尝试获取轮播中所有食品的链接。我正在使用 splash,因为轮播是由 javascript 制作的,并且使用漂亮的汤进行常规请求和解析不会在 html 中显示它。我的问题是我没有将任何数据放入我的“项目”字典中。

import scrapy
from scrapy_splash import SplashRequest

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = ["https://www.realcanadiansuperstore.ca/Food/Meat-%26-
    Seafood/c/RCSS001004000000"]


    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url, cookies={'currentRegion' :'CA-BC'}, 
            callback = self.parse, endpoint = 'render.html', args = {'wait':0.5},
                            )

def parse(self, response):

    item = {}
    item['urls'] = []

    itemList = response.css('div.product-name-wrapper > a > ::attr(href)').extract()

    for links in itemList:
        item['urls'].append(links)

    yield item

我认为我的 cookie 设置不正确,因此它会将我带到需要选择区域的页面。

顺便说一句,我也在 docker 控制台上运行了 splash。如果我在浏览器中访问本地主机,它会显示启动页面。

这是我从爬虫中得到的输出:

<GET https://www.realcanadiansuperstore.ca/Food/Meat-%26-
Seafood/c/RCSS001004000000 via http://localhost:8050/render.html> 
(referer: None)
2017-07-04 16:44:05 [scrapy.core.scraper] DEBUG: Scraped from <200 
https://www.realcanadiansuperstore.ca/Food/Meat-%26-
Seafood/c/RCSS001004000000>
{'urls': []}

这里可能出了什么问题?我已经按照此处所述填写了我的设置文件:https://github.com/scrapy-plugins/scrapy-splash

好的,我已经能够通过像这样设置 cookie 来获取 Splash 的 localhost 浏览器实例来呈现我需要的 HTML:

function main(splash)
    splash:add_cookie{"sessionid", "237465ghgfsd", "/", 
    domain="http://example.com"}
    splash:go("http://example.com/")
    return splash:html()
end

但这是在浏览器中作为脚本可以输入的。如何将此应用于我的 python 脚本?在 Python 中添加 cookie 有不同的方法吗?

【问题讨论】:

    标签: scrapy splash-screen scrapy-splash


    【解决方案1】:

    如果有适合你的脚本,你可以使用 /execute 端点来执行这个脚本:

    yield SplashRequest(url, endpoint='execute', args={'lua_source': my_script})
    

    scrapy-splash 还允许设置透明的 cookie 处理,以便 cookie 在 SplashRequests 中持续存在,就像在常规的 scrapy.Requests 中一样:

    script = """
    function main(splash)
      splash:init_cookies(splash.args.cookies)
      assert(splash:go{
        splash.args.url,
        headers=splash.args.headers,
        http_method=splash.args.http_method,
        body=splash.args.body,
        })
      assert(splash:wait(0.5))
    
      local entries = splash:history()
      local last_response = entries[#entries].response
      return {
        url = splash:url(),
        headers = last_response.headers,
        http_status = last_response.status,
        cookies = splash:get_cookies(),
        html = splash:html(),
      }
    end
    """
    
    class MySpider(scrapy.Spider):
    
        # def my_parse...
        #   ...
            yield SplashRequest(url, self.parse_result,
                endpoint='execute',
                cache_args=['lua_source'],
                args={'lua_source': script},
            )
    
        def parse_result(self, response):
            # here response.body contains result HTML;
            # response.headers are filled with headers from last
            # web page loaded to Splash;
            # cookies from all responses and from JavaScript are collected
            # and put into Set-Cookie response header, so that Scrapy
            # can remember them.
    

    请参阅 scrapy-splash README 中的 examples

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-04
      • 2017-05-28
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多