【问题标题】:Scrapy+Xpath+Python: Datapoint cannot be scrapedScrapy+Xpath+Python:无法抓取数据点
【发布时间】:2018-09-20 08:30:54
【问题描述】:

我想在这里抓取网址:

我试过这些:

response.xpath('//header[@class="geodir-entry-header"]/a/@href').extract()

response.xpath('//div[class="geodir-content "]/header/a/@href').extract()

response.xpath('//div[@class="geodir-content "]/header[@class="geodir-entry-header"]/a/@href').extract()

全部返回一个空列表。

【问题讨论】:

    标签: python xpath scrapy web-crawler


    【解决方案1】:

    response.xpath('//h3[@class="geodir-entry-title"]/a/@href').extract() 或者 response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()

    为你工作?

    看起来您刚刚错过了包含您需要的a 标记的h3 标记。

    【讨论】:

      【解决方案2】:

      您只需要添加您不小心错过的 h3 标签。

      response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()
      

      & 如果你只想获取第一个 url 然后添加

      response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract_first()
      

      response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()[0]
      

      【讨论】:

      • @Debbie 我想你得到了答案!
      猜你喜欢
      • 1970-01-01
      • 2019-03-17
      • 2023-03-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-09-04
      • 2017-07-17
      • 2018-06-10
      相关资源
      最近更新 更多