【发布时间】:2010-12-06 09:34:29
【问题描述】:
我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。
我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。
也许我可以尝试 Nutch 为我做这件事。
这种方法的可行性如何?
1) 在 Google 基础架构上托管爬虫 2) Nutch + 应用引擎——有可能吗?
【问题讨论】:
标签: google-app-engine web-crawler nutch
我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。
我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。
也许我可以尝试 Nutch 为我做这件事。
这种方法的可行性如何?
1) 在 Google 基础架构上托管爬虫 2) Nutch + 应用引擎——有可能吗?
【问题讨论】:
标签: google-app-engine web-crawler nutch
只看nutch docs,我看到类似“[t]这是 Nutch 的第二个版本,完全基于底层 Hadoop 平台” 这让我怀疑这不会在App Engine 上运行。 App Engine 应用在 Python 或 Java 沙盒中运行。
也就是说,您应该能够在 App Egnine 上组合一个基本的爬虫。我的基本实现可能会涉及启动tasks,它使用urlfetch 抓取页面,然后可选地插入其他任务来处理文档链接到的链接。您可以使用scheduled tasks 开始爬行。
【讨论】: