【问题标题】:Scrapy+Xpath+Python: Datapoint cannot be scrapedScrapy+Xpath+Python:无法抓取数据点
【发布时间】:2018-09-20 08:30:54
【问题描述】:
我想在这里抓取网址:
我试过这些:
response.xpath('//header[@class="geodir-entry-header"]/a/@href').extract()
response.xpath('//div[class="geodir-content "]/header/a/@href').extract()
response.xpath('//div[@class="geodir-content "]/header[@class="geodir-entry-header"]/a/@href').extract()
全部返回一个空列表。
【问题讨论】:
标签:
python
xpath
scrapy
web-crawler
【解决方案1】:
有
response.xpath('//h3[@class="geodir-entry-title"]/a/@href').extract()
或者
response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()
为你工作?
看起来您刚刚错过了包含您需要的a 标记的h3 标记。
【解决方案2】:
您只需要添加您不小心错过的 h3 标签。
response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()
& 如果你只想获取第一个 url 然后添加
response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract_first()
或
response.xpath('//header[@class="geodir-entry-header"]/h3/a/@href').extract()[0]