Python / Scrapy / Selenium / PhantomJs - 性能答案

【问题标题】：Python / Scrapy / Selenium / PhantomJs - performancePython / Scrapy / Selenium / PhantomJs - 性能
【发布时间】：2017-11-14 21:24:11
【问题描述】：

我正在使用 Python 和 Scrapy 制作网络爬虫/抓取工具。因为有些网站会动态加载它们的内容，所以我也将 Selenium 与 PhantomJs 结合使用。现在，当我开始使用它时，我认为性能可以接受，但结果却很慢。现在我不确定这是因为我的代码中存在一些漏洞，还是因为我使用的框架/程序没有足够优化。所以我问你们关于我可以做些什么来提高性能的建议。
我写的代码大约需要。 35 秒开始和结束。它执行大约 11 个 GET 请求和 3 个 Post 请求。

import scrapy
from scrapy.http.request import Request
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
import time


class TechcrunchSpider(scrapy.Spider):
    name = "techcrunch_spider_performance"
    allowed_domains = ['techcrunch.com']
    start_urls = ['https://techcrunch.com/search/heartbleed']



    def __init__(self):
        self.driver = webdriver.PhantomJS()
        self.driver.set_window_size(1120, 550)
        #self.driver = webdriver.Chrome("C:\Users\Daniel\Desktop\Sonstiges\chromedriver.exe")
        self.driver.wait = WebDriverWait(self.driver, 5)    #wartet bis zu 5 sekunden

    def parse(self, response):
        start = time.time()     #ZEITMESSUNG
        self.driver.get(response.url)

        #wartet bis zu 5 sekunden(oben definiert) auf den eintritt der condition, danach schmeist er den TimeoutException error
        try:    

            self.driver.wait.until(EC.presence_of_element_located(
                (By.CLASS_NAME, "block-content")))
            print("Found : block-content")

        except TimeoutException:
            self.driver.close()
            print(" block-content NOT FOUND IN TECHCRUNCH !!!")


        #Crawle durch Javascript erstellte Inhalte mit Selenium

        ahref = self.driver.find_elements(By.XPATH,'//h2[@class="post-title st-result-title"]/a')

        hreflist = []
        #Alle Links zu den jeweiligen Artikeln sammeln
        for elem in ahref :
            hreflist.append(elem.get_attribute("href"))


        for elem in hreflist :
            print(elem)



        print("im closing myself")
        self.driver.close()
        end = time.time()
        print("Time elapsed : ")
        finaltime = end-start
        print(finaltime)

我使用的是 Windows 8 64 位，intel i7-3630QM CPU @ 2,4GHZ，Nvidia Geforce GT 650M，8GB 内存。
PS：对不起德国cmets

【问题讨论】：

您可以尝试通过您的蜘蛛程序生成 AJAX 请求，从而消除对 Selenium 的需求，并且无需等待 5 秒来加载页面。检查这个frequent post。
阅读本题答案stackoverflow.com/questions/39036137/…

标签： python performance selenium scrapy phantomjs

【解决方案1】：

我也面临同样的问题，每分钟只处理 2 个 url。

我通过这样做缓存网页。

......
options = ['--disk-cache=true']
self.driver = webdriver.PhantomJS(service_args=options)
......

这会将 url 处理速度从每分钟 2 提高到 11 以防万一。这可能非常从网页到网页。

如果您想禁用图像加载以加快 selenium 中的页面加载速度，请将--load-images=false 添加到上面的选项中。

希望对你有帮助。

【讨论】：

【解决方案2】：

尝试改用Splash 来处理带有 Javascript 的页面。

【讨论】：