【发布时间】:2013-06-16 11:20:39
【问题描述】:
我计划在我目前正在开发的应用程序中使用网络爬虫。我对 Nutch 进行了一些研究,并使用它进行了一些初步测试。但后来我遇到了scrapy。但是当我做了一些初步研究并浏览了有关scrapy的文档时,我发现它只能捕获结构化数据(您必须提供要从中捕获数据的 div 名称)。我正在开发的应用程序的后端是基于 Python 的,我知道 scrapy 是基于 Python 的,有些人认为 scrapy 比 Nutch 更好。
我的要求是从 1000 多个不同的网页中捕获数据并在该信息中搜索相关关键字。scrapy 有什么方法可以满足相同的要求。
1)如果可以,你能举出一些例子来说明它是如何做到的吗?
2)或者 Nutch+Solr 最适合我的要求
【问题讨论】:
-
div 名称不是 Scrapy 的要求,你可以捕获任何你想要的东西。
标签: python solr web-scraping scrapy web-crawler