【发布时间】:2018-08-31 19:43:24
【问题描述】:
您好,我是 scrapy 的新手,我正在尝试从阿里巴巴的 Product By categories 页面抓取类别和类别的 URL。我正在尝试将其抓取并放在 CSV 文件中。
当我在电子表格中打开它时,我想给出的视图是:-
categories categories_urls
Agricultural Growing Media its URL
Animal Products its URL
. .
. .
. .
代码:-
# -*- coding: utf-8 -*-
import scrapy
class AlibabaCatagoriesSpider(scrapy.Spider):
name = 'alibaba_catagories'
allowed_domains = ['alibaba.com']
start_urls = ['https://www.alibaba.com/Products?spm=a2700.8293689.scGlobalHomeHeader.352.2ce265aa7GOmOF']
def parse(self, response):
a = response.css('ul.sub-item-cont')
for catag in a:
item = {
'categories': catag.css('li>a::text').extract(),
'categories_url': catag.css('li>a::attr(href)').extract()
}
yield item
问题
- \n 并且在抓取类别时会抓取空白。
- 数据未以理想的格式抓取
你能提供什么帮助
- 修改代码以便我们可以拥有
- 提供在抓取时删除 \n 和空白的技巧
理想的格式。
【问题讨论】:
-
“理想的格式”是什么意思?
-
我想在一个页面中显示类别的名称,在另一个页面中显示它们的 URL。
标签: python xpath web-scraping scrapy css-selectors