【发布时间】:2021-03-04 15:47:46
【问题描述】:
我正在尝试使用 scrapy 从我的大学网站上抓取有关 circulrs 的数据,但我的蜘蛛没有正确抓取数据。有很多空白元素,由于某种原因,我也无法抓取通函的“href”属性。我假设我的 CSS 选择器是错误的,但我无法弄清楚我到底做错了什么。我使用“选择器小工具”Chrome 扩展复制了我的 CSS 选择器。我一直在学习scrapy,所以如果你能解释我做错了什么,那就太好了。
我从中抓取数据的网站是:https://www.imsnsit.org/imsnsit/notifications.php
我的代码是:
import scrapy
from ..items import CircularItem
class CircularSpider(scrapy.Spider):
name = "circular"
start_urls = [
"https://www.imsnsit.org/imsnsit/notifications.php"
]
def parse(self, response):
items = CircularItem()
all = response.css('tr~ tr+ tr font')
for x in all:
cirName = x.css('a font::text').extract()
cirLink = x.css('.list-data-focus a').attrib['href'].extract()
date = x.css('tr~ tr+ tr td::text').extract()
items["Name"] = cirName
items["href"] = cirLink
items["Date"] = date
yield items
【问题讨论】:
标签: python python-3.x web-scraping scrapy css-selectors