【发布时间】:2019-03-20 10:37:52
【问题描述】:
大家早上好,
我在使用 Scrapy 时遇到问题。我想从这个 url 获取表的“commune”列中包含的数据:https://fr.wikipedia.org/wiki/Liste_des_communes_de_Belgique_par_population
这是我的蜘蛛:
import scrapy
import json
class communes_spider(scrapy.Spider):
name = "communes"
def start_requests(self):
urls = [
'https://fr.wikipedia.org/wiki/Liste_des_communes_de_Belgique_par_population'
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
yield response.css('table.wikitable td a::text').getall()
我正在使用终端抓取页面:
scrapy crawl communes
但是它不输出“公社”列的数据。因此我不能将它们存储在 json 文件中。有人对这里发生的事情有见解吗?
提前致谢!
【问题讨论】:
标签: python scrapy web-crawler