在谷歌应用引擎上为选定的网站运行网络爬虫？

【问题标题】：Running a web crawler for selected sites on google app engine?在谷歌应用引擎上为选定的网站运行网络爬虫？
【发布时间】：2010-12-06 09:34:29
【问题描述】：

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作，但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试 Nutch 为我做这件事。

这种方法的可行性如何？

1) 在 Google 基础架构上托管爬虫 2) Nutch + 应用引擎——有可能吗？

【问题讨论】：

【解决方案1】：

只看nutch docs，我看到类似“[t]这是 Nutch 的第二个版本，完全基于底层 Hadoop 平台” 这让我怀疑这不会在App Engine 上运行。 App Engine 应用在 Python 或 Java 沙盒中运行。

也就是说，您应该能够在 App Egnine 上组合一个基本的爬虫。我的基本实现可能会涉及启动tasks，它使用urlfetch 抓取页面，然后可选地插入其他任务来处理文档链接到的链接。您可以使用scheduled tasks 开始爬行。

【讨论】：