项目一:唯一图库
项目概述:根据需要到唯一图库爬取图片
所用技术:scrapy,urllib,字符串处理,百分号格式化
爬虫程序根据setting和item配置把爬取到的数据交给pipline处理
相关操作记录如下:
爬虫程序
1 #!/usr/bin/env python 2 #-*- coding:utf-8 -*- 3 #s1.py 4 import scrapy 5 from scrapy.selector import HtmlXPathSelector 6 from spider1 import items 7 8 class LL(scrapy.spiders.Spider): 9 name = 'xx' 10 start_urls=['http://www.mmonly.cc/sgtp/',] 11 def parse(self,response): 12 hxs = HtmlXPathSelector(response) 13 14 item = items.Spider1Item() 15 item['names'] = hxs.select('//div[@class="item_t"]//img/@alt').extract() 16 item['imgs'] = hxs.select('//div[@class="item_t"]//img/@src').extract() 17 yield item