Scrapy隐藏的内存泄漏答案

【问题标题】：Scrapy hidden memory leakScrapy隐藏的内存泄漏
【发布时间】：2021-01-04 06:31:19
【问题描述】：

背景 - TLDR：我的项目中有内存泄漏

花了几天时间用 scrapy 浏览内存泄漏文档，但找不到问题所在。我正在开发一个中等规模的 scrapy 项目，每天大约 40k 个请求。

我正在使用 scrapinghub 的预定运行来托管它。

在scrapinghub，每月只需 9 美元，您就可以获得 1 个具有 1GB RAM 的 VM 来运行您的爬虫。

我在本地开发了一个爬虫并上传到scrapinghub，唯一的问题是运行快结束时，我超出了内存。

本地化设置CONCURRENT_REQUESTS=16 工作正常，但会导致scrapinghub 上的内存超过50%。当我设置CONCURRENT_REQUESTS=4 时，我在 95% 点超过了内存，所以减少到 2 应该可以解决问题，但是我的爬虫变得太慢了。

另一种解决方案是购买 2 个虚拟机以增加 RAM，但我感觉我设置爬虫的方式会导致内存泄漏。

在本例中，该项目将搜索一家在线零售商。在本地运行时，我的 memusage/max 是 2.7gb 和 CONCURRENT_REQUESTS=16。

我现在将运行我的scrapy结构

获取要抓取的总页数
使用以下命令循环浏览所有这些页面：www.example.com/page={page_num}
在每个页面上，收集有关 48 种产品的信息
对于这些产品中的每一个，请转到其页面并获取一些信息
使用该信息，为每个产品直接调用 API
使用项目管道保存这些（我在本地写入 csv，但不在 scrapinghub 上）

管道

    class Pipeline(object):
        def process_item(self, item, spider):
            item['stock_jsons'] = json.loads(item['stock_jsons'])['subProducts']
            return item

项目

    class mainItem(scrapy.Item):
        date = scrapy.Field()
        url = scrapy.Field()
        active_col_num = scrapy.Field()
        all_col_nums = scrapy.Field()
        old_price = scrapy.Field()
        current_price = scrapy.Field()
        image_urls_full = scrapy.Field()
        stock_jsons = scrapy.Field()
    
    class URLItem(scrapy.Item):
        urls = scrapy.Field()

主蜘蛛

    class ProductSpider(scrapy.Spider):
        name = 'product'
        def __init__(self, **kwargs):
            page = requests.get('www.example.com', headers=headers)
            self.num_pages = # gets the number of pages to search
    
        def start_requests(self):
            for page in tqdm(range(1, self.num_pages+1)):
                url = 'www.example.com/page={page}'
                yield scrapy.Request(url = url, headers=headers, callback = self.prod_url)

        def prod_url(self, response):
            urls_item = URLItem()
            extracted_urls = response.xpath(####).extract() # Gets URLs to follow
            urls_item['urls'] = [# Get a list of urls]
            for url in urls_item['urls']:
                    yield scrapy.Request(url = url, headers=headers, callback = self.parse)

        def parse(self, response) # Parse the main product page
            item = mainItem()
            item['date'] = DATETIME_VAR
            item['url'] = response.url
            item['active_col_num'] = XXX
            item['all_col_nums'] = XXX
            item['old_price'] = XXX
            item['current_price'] = XXX
            item['image_urls_full'] = XXX

            try:
                new_url = 'www.exampleAPI.com/' + item['active_col_num']
            except TypeError:
                new_url = 'www.exampleAPI.com/{dummy_number}'
        
            yield scrapy.Request(new_url, callback=self.parse_attr, meta={'item': item})


        def parse_attr(self, response):
        ## This calls an API Step 5
            item = response.meta['item']
            item['stock_jsons'] = response.text
            yield item

到目前为止我尝试了什么？

psutils，帮助不大。
trackref.print_live_refs() 最后返回以下内容：

HtmlResponse                       31   oldest: 3s ago
mainItem                            18   oldest: 5s ago
ProductSpider                       1   oldest: 3321s ago
Request                            43   oldest: 105s ago
Selector                           16   oldest: 3s ago

随着时间的推移打印前 10 个全局变量
随着时间的推移打印前 10 个项目类型

问题

如何找到内存泄漏？
谁能看到我可能在哪里泄漏了内存？
我的 scrapy 结构是否存在根本问题？

如果需要更多信息，请告诉我

要求提供其他信息

注意，下面的输出来自我的本地机器，我有足够的内存，所以我正在抓取的网站成为瓶颈。使用 scrapinghub 时，由于 1GB 的限制，疑似内存泄漏成为问题。

如果需要scrapinghub的输出，请告诉我，我认为应该是一样的，但是完成原因的消息是内存超出。

1.从开始的日志行（从INFO：Scrapy xxx开始到蜘蛛打开）。

2020-09-17 11:54:11 [scrapy.utils.log] INFO: Scrapy 2.3.0 started (bot: PLT)
2020-09-17 11:54:11 [scrapy.utils.log] INFO: Versions: lxml 4.5.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.4 (v3.7.4:e09359112e, Jul  8 2019, 14:54:52) - [Clang 6.0 (clang-600.0.57)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1g  21 Apr 2020), cryptography 3.1, Platform Darwin-18.7.0-x86_64-i386-64bit
2020-09-17 11:54:11 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'PLT',
 'CONCURRENT_REQUESTS': 14,
 'CONCURRENT_REQUESTS_PER_DOMAIN': 14,
 'DOWNLOAD_DELAY': 0.05,
 'LOG_LEVEL': 'INFO',
 'NEWSPIDER_MODULE': 'PLT.spiders',
 'SPIDER_MODULES': ['PLT.spiders']}
2020-09-17 11:54:11 [scrapy.extensions.telnet] INFO: Telnet Password: # blocked
2020-09-17 11:54:11 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2020-09-17 11:54:12 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2020-09-17 11:54:12 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
=======
17_Sep_2020_11_54_12
=======
2020-09-17 11:54:12 [scrapy.middleware] INFO: Enabled item pipelines:
['PLT.pipelines.PltPipeline']
2020-09-17 11:54:12 [scrapy.core.engine] INFO: Spider opened

2.结束日志行（INFO：Dumping Scrapy stats to end）。

2020-09-17 11:16:43 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 15842233,
 'downloader/request_count': 42031,
 'downloader/request_method_count/GET': 42031,
 'downloader/response_bytes': 1108804016,
 'downloader/response_count': 42031,
 'downloader/response_status_count/200': 41999,
 'downloader/response_status_count/403': 9,
 'downloader/response_status_count/404': 1,
 'downloader/response_status_count/504': 22,
 'dupefilter/filtered': 110,
 'elapsed_time_seconds': 3325.171148,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2020, 9, 17, 10, 16, 43, 258108),
 'httperror/response_ignored_count': 10,
 'httperror/response_ignored_status_count/403': 9,
 'httperror/response_ignored_status_count/404': 1,
 'item_scraped_count': 20769,
 'log_count/INFO': 75,
 'memusage/max': 2707484672,
 'memusage/startup': 100196352,
 'request_depth_max': 2,
 'response_received_count': 42009,
 'retry/count': 22,
 'retry/reason_count/504 Gateway Time-out': 22,
 'scheduler/dequeued': 42031,
 'scheduler/dequeued/memory': 42031,
 'scheduler/enqueued': 42031,
 'scheduler/enqueued/memory': 42031,
 'start_time': datetime.datetime(2020, 9, 17, 9, 21, 18, 86960)}
2020-09-17 11:16:43 [scrapy.core.engine] INFO: Spider closed (finished)

self.num_pages 变量使用什么值？

我正在抓取的网站有大约 2 万个产品，每页显示 48 个。所以它进入网站，查看 20103 个产品，然后除以 48（然后是 math.ceil）得到页数。

在更新中间件后添加来自抓取中心的输出

downloader/request_bytes    2945159
downloader/request_count    16518
downloader/request_method_count/GET 16518
downloader/response_bytes   3366280619
downloader/response_count   16516
downloader/response_status_count/200    16513
downloader/response_status_count/404    3
dupefilter/filtered 7
elapsed_time_seconds    4805.867308
finish_reason   memusage_exceeded
finish_time 1600567332341
httperror/response_ignored_count    3
httperror/response_ignored_status_count/404 3
item_scraped_count  8156
log_count/ERROR 1
log_count/INFO  94
memusage/limit_reached  1
memusage/max    1074937856
memusage/startup    109555712
request_depth_max   2
response_received_count 16516
retry/count 2
retry/reason_count/504 Gateway Time-out 2
scheduler/dequeued  16518
scheduler/dequeued/disk 16518
scheduler/enqueued  17280
scheduler/enqueued/disk 17280
start_time  1600562526474

【问题讨论】：

需要其他信息：1.从开始的日志行（从INFO: Scrapy xxx started 到spider opened）。 2.结束日志行（INFO: Dumping Scrapy stats 结束）。 3.self.num_pages变量使用什么值？
已添加，希望对您有所帮助，感谢您的详细请求 - 使添加变得非常容易@Georgiy
你的“我的爬虫变得太慢”是什么意思？在一般情况下，向网站发送请求的频率超过每秒 1 个请求是不正常的。你的蜘蛛在 54 分钟内发送了 42k 个请求（每秒约 13 个请求）！！。
嗨@Georgiy，对不起，我会在答案中添加更多上下文，这个输出是在我的本地机器上运行的，有 16 个并发爬虫，请求率为 0.05。在使用抓取集线器时，我必须将其减少到 4，因为我怀疑是内存泄漏，而不是网站节流。
TLDR 解决方案：在 Scraping Hub 上抓取云单元，并降低请求率。如果这不起作用，请查看以下答案以深入了解

标签： python memory scrapy scrapinghub

【解决方案1】：

1.Scheruler 队列/活动请求
与self.numpages = 418。

此代码行将创建 418 个请求对象（包括 - 要求操作系统委派内存以保存 418 个对象）并将它们放入调度程序队列：

for page in tqdm(range(1, self.num_pages+1)):
                url = 'www.example.com/page={page}'
                yield scrapy.Request(url = url, headers=headers, callback = self.prod_url)

每个“页面”请求生成 48 个新请求。
每个“产品页面”请求生成 1 个“api_call”请求
每个“api_call”请求都会返回项目对象。
由于所有请求都具有相同的优先级 - 在最坏的情况下，应用程序将需要内存来一次在 RAM 中保存约 20000 个请求/响应对象。

为了排除这种情况，priority 参数可以添加到scrapy.Request。并且可能您需要将蜘蛛配置更改为以下内容：

    def start_requests(self):
        yield scrapy.Request(url = 'www.example.com/page=1', headers=headers, callback = self.prod_url)

    def prod_url(self, response):
        #get number of page
        next_page_number = int(response.url.split("/page=")[-1] + 1
        #...
        for url in urls_item['urls']:
                yield scrapy.Request(url = url, headers=headers, callback = self.parse, priority = 1)

        if next_page_number < self.num_pages:
            yield scrapy.Request(url = f"www.example.com/page={str(next_page_number)}"

    def parse(self, response) # Parse the main product page
        #....
        try:
            new_url = 'www.exampleAPI.com/' + item['active_col_num']
        except TypeError:
            new_url = 'www.exampleAPI.com/{dummy_number}'
    
        yield scrapy.Request(new_url, callback=self.parse_attr, meta={'item': item}, priority = 2)

使用此蜘蛛配置 - 蜘蛛仅在完成处理前一页的产品时才会处理下一页的产品页面，您的应用程序将不会收到长长的请求/响应队列。

2.Http压缩

很多网站压缩 html 代码以减少流量负载。
例如亚马逊网站使用 gzip 压缩它的产品页面。
亚马逊产品页面压缩 html 的平均大小 ~250Kb
未压缩的 html 大小可以超过 ~1.5Mb。

如果您的网站使用压缩并且未压缩 html 的响应大小与亚马逊产品页面的大小相似 - 应用将需要花费大量内存来保存压缩和未压缩的响应正文。而填充downloader/response_bytes stats 参数的DownloaderStats 中间件不会计算解压缩响应的大小，因为它是在process_response 中间件的process_response 方法之前调用的process_response 方法。

为了检查它，您需要通过将其添加到设置来更改下载器统计中间件的优先级：

DOWNLOADER_MIDDLEWARES = {
'scrapy.downloadermiddlewares.stats.DownloaderStats':50
}

在这种情况下： downloader/request_bytes stats 参数 - 将减少，因为它不会计算中间件填充的某些标头的大小。
downloader/response_bytes stats 参数 - 如果网站使用压缩将大大增加。

【讨论】：

谢谢，不知道优先级参数，今晚测试一下。为了确认我的理解，您能否详细说明为什么爬虫很好，但是说 1 小时后，它因超出内存而崩溃？有点困惑，因为来自trackref.print_live_refs() 的最旧请求不会超过 100 秒。尤其是 20k 项的总大小约为 40mb - 认为我在这里遗漏了一些基本的东西？
好的。我有一些理论。无论如何，这种行为不是预期的。如果应用程序尝试下载大量文件/图像/视频而不是常规 html，我可以期待类似的情况。
在测试下载器统计中间件后，您怀疑的行为是真实的。既然这是真的，那么解决方案是什么？似乎改变它仍然会导致内存泄漏。 - 请注意，我还没有时间先测试您建议的新架构
您能否发布最新运行的downloader/response_bytes 和downloader/response_count 统计值（更改DownloaderStats 优先级）？对于接下来的测试，请删除 SETTINGS 的更改。
使用整个网站的子集重新运行爬虫：response_bytes old = 25278903, response_count old = 969, request_bytes old = 351822 ### response_bytes new = 159938140, response_count new = 969, request_bytes new = 173131 . 让我知道向您发送完整的爬虫/网站是否会有所帮助.. 添加中间件后还添加了来自 scrapinghub stats 的输出。