【问题标题】:Not able to scrape data from using scrapy无法使用scrapy抓取数据
【发布时间】:2016-07-17 17:12:53
【问题描述】:

我曾使用各种方法从angel.co 中抓取数据

但仍然无法使用每次获取空列表来抓取数据

results = self.driver.find_elements_by_css_selector(".results > div") for result in results: name = result.find_element_by_css_selector(".name") print(name.text)

另一个是

soup = BeautifulSoup(response.body) val = soup.findAll('div.name')

for post in response.xpath('.//div[@class="base startup"]'): item = {} item['title'] =post.xpath('.//div[@class="name"]//text()').extract()[0] print item 如果有其他建议,这些都是我尝试过的,然后帮助我抓取页面 完整蜘蛛的链接是 here

【问题讨论】:

  • 你在用美丽的汤,硒和scrapy老兄认真吗?scrapy和硒就足够了
  • 这些是我正在尝试的不同方法,您可以查看我的代码链接,但无法从该站点获得结果。

标签: python selenium xpath web-scraping scrapy


【解决方案1】:

您需要wait 才能加载搜索结果,然后才能提取它们:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

wait = WebDriverWait(self.driver, 10)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, ".startup")))

results = self.driver.find_elements_by_css_selector(".results > div")
for result in results:
    name = result.find_element_by_css_selector(".name")
    print(name.text)

【讨论】:

  • 我也按照您在上次回复中的建议使用了等待。主要问题在于抓取网站没有提供任何指向蜘蛛的链接是codeshare.io/Gw3nb
猜你喜欢
  • 2018-06-10
  • 2023-03-04
  • 1970-01-01
  • 1970-01-01
  • 2021-03-04
  • 1970-01-01
  • 1970-01-01
  • 2013-05-23
  • 2015-01-12
相关资源
最近更新 更多