【发布时间】:2019-06-11 22:40:04
【问题描述】:
我的目标是按星期几的顺序抓取漫画并将其保存到 Excel 数据表中。我的来源是https://comic.naver.com/webtoon/weekday.nhn。
我已经成功地通过终端直接抓取数据,并想为整个过程编写一个合适的脚本,但没有多大成功。
使用response.xpath("//div[@class='list_area daily_all']/div[1]/div/h4/span/text()").extract() 直接通过终端抓取数据将正确生成数据。工作日从 div[1~7] 排序,此代码返回“星期一”。
以下代码返回星期一漫画列表。
response.xpath("//div[@class='list_area daily_all']/div[1]/div//ul/li/a[@class='title']/text()").extract()
但是,下面的代码没有返回想要的结果。
def parse(self, response):
for webtoon in response.xpath("//div[@class='list_area daily_all']/div/div"):
yield {
'Day': webtoon.xpath('/h4/span/text()').extract(),
'Title': webtoon.xpath("/ul/li/a[@class='title']/text()").extract(),
}
预期结果将是以下 7 行代码,按星期几的顺序排列
{'Day': [day], 'Title': [title1, title2, title3]}
但是,我的代码正在返回
{'Day': [], 'Title': []}
我希望这一切都有意义。
【问题讨论】:
标签: python scrapy web-crawler screen-scraping