【发布时间】:2016-04-25 10:09:59
【问题描述】:
我正在使用 scrapy 抓取我拥有的旧网站,我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件,或者包含其中所有内容的数据库。但我确实需要能够让蜘蛛爬取整个东西,而不必输入我目前必须做的每一个网址
import scrapy
class DmozSpider(scrapy.Spider):
name = "dmoz"
allowed_domains = ["www.example.com"]
start_urls = [
"http://www.example.com/contactus"
]
def parse(self, response):
filename = response.url.split("/")[-2] + '.html'
with open(filename, 'wb') as f:
f.write(response.body)
【问题讨论】:
标签: python scrapy scrapy-spider