【发布时间】:2021-11-13 17:54:11
【问题描述】:
最近,我尝试制作一些工具来简化自己的公寓搜索并尽快获取相关信息(该网站不是那么用户友好),但我遇到了一个问题,也许我是目前只是盲人......或者只是愚蠢,因为这不是我的专长。
所以,无论如何。我有一个过滤结果的链接:
class BostadSpider(scrapy.Spider):
name = "bostadformedlingen"
start_urls = ['https://bostad.stockholm.se/Lista/?s=58.66266&n=59.99899&w=17.07550&e=19.23431&sort=annonserad-fran-desc']
def parse(self, response):
for ad in response.css(
"div.apartment-search-hits > ul.apartment-search-ad-list > li.ad-list__item > a::attr('href')"):
print(ad.get())
这是来自网站的结构:
<main class="display-flex flex-column search-wrapper u-m-a-0 u-p-a-0" id="main-content">
<div class="row no-gutters search-wrapper__inner">
<div id="apartment-search-hits" class="apartment-search-hits" aria-hidden="false">
<ul id="apartment-search-ad-list" class="ad-list" aria-hidden="false">
<li class="ad-list__item"> <a href="/Lista/Details?aid=190412" class="ad-list__link">
我应该“更上一层楼”并包含“main”吗?
【问题讨论】:
-
我尝试包括一步一步的父母,但......没有运气!
-
我将变量“url”更改为“start_urls”(初学者的错误),但现在仍然响应是
[protego] DEBUG: Rule at line 24 without any user agent to enforce it on.(在第26、27、31、38行...) -
DEBUG: Crawled (404)
标签: python html css scrapy web-crawler