如何使用 scrapy-splash 从本网站获取动态加载的内容？答案

【问题标题】：How to get dinamically-loaded content from this website using scrapy-splash?如何使用 scrapy-splash 从本网站获取动态加载的内容？
【发布时间】：2020-10-06 16:45:32
【问题描述】：

我正在尝试使用 scrapy-splash 从这个 website 获取数据，但我无法提取数据。我想获取有关每个真实状态的数据，例如 href、价格等。这是我的代码：

在 settings.py 中：

ROBOTSTXT_OBEY = False

USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"

SPLASH_ENABLED = True


DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

SPLASH_URL = 'http://localhost:8050/'

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

我的蜘蛛：

class M2Spider(scrapy.Spider):
    
    name = "m2"
    allowed_domains = ['metrocuadrado.com']
    start_urls = [
            'https://www.metrocuadrado.com/bodega/arriendo'
            ]
    
    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url=url,callback= self.parse, 
                               endpoint='render.html',
                               args={'wait': 10},)
                  
    def parse(self, response):
        print("--------------------------------------------------------------")
        real_states= response.selector.xpath(".//a[@class='sc-bdVaJa ebNrSm']").getall()

        print("real_states")

输出打印是一个空列表[]。我是新手。有什么建议吗？

【问题讨论】：

标签： python scrapy scrapy-splash

【解决方案1】：

我会这样做：

向https://www.metrocuadrado.com/results/_next/static/chunks/commons.8afec6af6d5add2097bf.js 发送请求，如果您搜索“X-Api-Key”，您会在响应中找到一个 API-key。因此可以使用正则表达式轻松提取，例如：re.findall(r'"X-Api-Key":"(\w+)"')。

然后，当您提取 API 密钥后，向 https://www.metrocuadrado.com/rest-search/search?seo=/bodega/arriendo&from=0&size=50 发送请求，这是您发送的网站中的隐藏 API。要获得有效的响应，您必须像这样附加标题

scrapy.Request(
    url=url_variable,
    headers={
        "x-api-key": api_key_variable_from_prev_step
    }
)

通过该 API，您可以获得 JSON 格式的数据，这通常比解析 html 更可靠，因为它的变化更频繁。

【讨论】：

您的回答非常有用，但我在获取所有项目时遇到了一些问题。当我向 metrocuadrado.com/rest-search/search?seo=/bodega/… 发送请求时，我获得了前 50 个元素，但是当我向 metrocuadrado.com/rest-search/search?seo=/bodega/… 发送下一个请求时，我不断收到之前获得的 50 个元素，我可能做错了什么？
尝试使用这个 url，在 chrome 检查中对站点进行分页时发现它。 metrocuadrado.com/rest-search/…
这对我有用，但我还有一个小“问题”，我只能获得 10000 件物品，请你再帮我一次好吗？
我认为该网站仅限于提供 10.000 件商品。如果您查看普通站点，您会发现您可以分页到最大页面 200。所以不幸的是，我认为没有办法解决这个问题。