Scrapy Vs Nutch [关闭]

【问题标题】：Scrapy Vs Nutch [closed]Scrapy Vs Nutch [关闭]
【发布时间】：2013-06-16 11:20:39
【问题描述】：

我计划在我目前正在开发的应用程序中使用网络爬虫。我对 Nutch 进行了一些研究，并使用它进行了一些初步测试。但后来我遇到了scrapy。但是当我做了一些初步研究并浏览了有关scrapy的文档时，我发现它只能捕获结构化数据（您必须提供要从中捕获数据的 div 名称）。我正在开发的应用程序的后端是基于 Python 的，我知道 scrapy 是基于 Python 的，有些人认为 scrapy 比 Nutch 更好。

我的要求是从 1000 多个不同的网页中捕获数据并在该信息中搜索相关关键字。scrapy 有什么方法可以满足相同的要求。

1)如果可以，你能举出一些例子来说明它是如何做到的吗？

2)或者 Nutch+Solr 最适合我的要求

【问题讨论】：

div 名称不是 Scrapy 的要求，你可以捕获任何你想要的东西。

标签： python solr web-scraping scrapy web-crawler

【解决方案1】：

Scrapy 在您的情况下可以完美运行。

你不需要给 div 命名 - 你可以得到任何你想要的东西：

Scrapy 有自己的数据提取机制。他们是称为 XPath 选择器（或简称为“选择器”），因为它们 “选择”由 XPath 指定的 HTML 文档的某些部分表达式。

另外，您可以使用BeautifulSoup 和lxml 从页面内容中提取数据。

此外，scrapy 基于twisted 并且完全异步且快速。

这里有很多关于 SO 的示例爬虫蜘蛛 - 只需查看 scrapy 标签问题。如果您有更具体的问题 - 请提出。

希望对您有所帮助。

【讨论】：

谢谢alecxe..我会尝试scrapy。我想我必须对此进行更好的研究。
最近有一篇关于使用Scrapy with Solr的文章。