【发布时间】:2013-04-15 07:00:12
【问题描述】:
我有一个关于从网站上抓取内容的问题。让我们想象在这个例子中,我们谈论的是分类风格网站上的内容,例如亚马逊或 Ebay。 关于此内容的重要说明是它可以更改并且可以删除。
在我看来,我有两个选择:
-
每天一次全新的刮擦。我以空白开始新的一天 数据库模式并每天完全重新抓取每个站点并插入 将内容添加到新数据库中。
-
增量抓取,我从之前的内容开始 昨天刮了,在重新刮网站时,我做了以下事情:
Check existing URL Content is still online and is it the same - Leave in DB Content is not availiable - Delete from DB Content is different - Rescrape content
我的问题是,进行增量抓取所增加的复杂性真的值得吗?这样做有什么好处吗?我真的很喜欢每天进行一次新的抓取的简单性,但这是我的第一个抓取项目,我真的很想知道抓取专家在这种情况下会做什么。
【问题讨论】:
-
每天都在亚马逊或 Ebay 上全面搜索?对我来说听起来不太现实。
标签: python mysql web-scraping screen-scraping scrapy