【发布时间】:2019-04-22 04:08:36
【问题描述】:
我想抓取网站。
https://stackoverflow.com/jobs?med=site-ui&ref=jobs-tab
我要提取
- 标题
- 位置
- 公司
招聘信息。
我尝试了几个 xpath 的位置、公司和标题,但没有任何效果。我还尝试将其写入 CSV 文件。所有位置、公司和标题都显示为空白。我认为我的 xpath 不正确
import scrapy
class JobItem(scrapy.Item):
# Data structure to store the title, company name and location of the job
title = scrapy.Field()
company = scrapy.Field()
location = scrapy.Field()
class stackoverflow(scrapy.Spider):
name = 'stack_bot'
start_urls = ['https://stackoverflow.com/jobs?med=site-ui&ref=jobs-tab']
def parse(self, response):
for a_el in response.xpath('//div[@class="listResults"]'):
section = JobItem()
section['title'] = ?
section['company'] = ?
section['location'] = ?
yield section
谁能帮助我获取标题、公司和位置的 xpath。 xpath('//div[@class="listResults"]') 也是正确的。
【问题讨论】:
-
添加到答案中。请查看here 以了解有关抓取 SO 作业的一般讨论。
标签: python xpath web-scraping scrapy