【发布时间】:2017-11-14 21:24:11
【问题描述】:
我正在使用 Python 和 Scrapy 制作网络爬虫/抓取工具。因为有些网站会动态加载它们的内容,所以我也将 Selenium 与 PhantomJs 结合使用。现在,当我开始使用它时,我认为性能可以接受,但结果却很慢。现在我不确定这是因为我的代码中存在一些漏洞,还是因为我使用的框架/程序没有足够优化。所以我问你们关于我可以做些什么来提高性能的建议。
我写的代码大约需要。 35 秒开始和结束。它执行大约 11 个 GET 请求和 3 个 Post 请求。
import scrapy
from scrapy.http.request import Request
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
import time
class TechcrunchSpider(scrapy.Spider):
name = "techcrunch_spider_performance"
allowed_domains = ['techcrunch.com']
start_urls = ['https://techcrunch.com/search/heartbleed']
def __init__(self):
self.driver = webdriver.PhantomJS()
self.driver.set_window_size(1120, 550)
#self.driver = webdriver.Chrome("C:\Users\Daniel\Desktop\Sonstiges\chromedriver.exe")
self.driver.wait = WebDriverWait(self.driver, 5) #wartet bis zu 5 sekunden
def parse(self, response):
start = time.time() #ZEITMESSUNG
self.driver.get(response.url)
#wartet bis zu 5 sekunden(oben definiert) auf den eintritt der condition, danach schmeist er den TimeoutException error
try:
self.driver.wait.until(EC.presence_of_element_located(
(By.CLASS_NAME, "block-content")))
print("Found : block-content")
except TimeoutException:
self.driver.close()
print(" block-content NOT FOUND IN TECHCRUNCH !!!")
#Crawle durch Javascript erstellte Inhalte mit Selenium
ahref = self.driver.find_elements(By.XPATH,'//h2[@class="post-title st-result-title"]/a')
hreflist = []
#Alle Links zu den jeweiligen Artikeln sammeln
for elem in ahref :
hreflist.append(elem.get_attribute("href"))
for elem in hreflist :
print(elem)
print("im closing myself")
self.driver.close()
end = time.time()
print("Time elapsed : ")
finaltime = end-start
print(finaltime)
我使用的是 Windows 8 64 位,intel i7-3630QM CPU @ 2,4GHZ,Nvidia Geforce GT 650M,8GB 内存。
PS:对不起德国cmets
【问题讨论】:
-
您可以尝试通过您的蜘蛛程序生成 AJAX 请求,从而消除对 Selenium 的需求,并且无需等待 5 秒来加载页面。检查这个frequent post。
标签: python performance selenium scrapy phantomjs