【发布时间】:2013-01-14 14:17:28
【问题描述】:
我是 Scrapy 的新手,在任何地方都找不到我需要做的事情。
我需要抓取一组非常相似的 URL,但我无法从一个到另一个访问。例如,我需要抓取以下 URL:
www.example.com/1.html
www.example.com/2.html
(...)
www.example.com/1000.html
但第一页没有链接到其他页面,即是独立的。
我该怎么做? (对不起我的英语)
类似这样的:
class MySpider(BaseSpider):
name = 'example.com'
allowed_domains = ['example.com']
Start_urls = [
'http://www.example.com/1.html',
'http://www.example.com/2.html',
'http://www.example.com/3.html',
]
但对于超过 3 个不同的页面
谢谢!
【问题讨论】:
标签: url sitemap scrapy rule web-crawler