【问题标题】:Running a web crawler for selected sites on google app engine?在谷歌应用引擎上为选定的网站运行网络爬虫?
【发布时间】:2010-12-06 09:34:29
【问题描述】:

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试 Nutch 为我做这件事。

这种方法的可行性如何?

1) 在 Google 基础架构上托管爬虫 2) Nutch + 应用引擎——有可能吗?

【问题讨论】:

    标签: google-app-engine web-crawler nutch


    【解决方案1】:

    只看nutch docs,我看到类似“[t]这是 Nutch 的第二个版本,完全基于底层 Hadoop 平台” 这让我怀疑这不会在App Engine 上运行。 App Engine 应用在 PythonJava 沙盒中运行。

    也就是说,您应该能够在 App Egnine 上组合一个基本的爬虫。我的基本实现可能会涉及启动tasks,它使用urlfetch 抓取页面,然后可选地插入其他任务来处理文档链接到的链接。您可以使用scheduled tasks 开始爬行。

    【讨论】:

    • 他基本上会从头开始编写爬虫,不是吗?
    • @simpatico 是的,或多或少。
    猜你喜欢
    • 2013-10-15
    • 1970-01-01
    • 2011-06-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-11-23
    • 1970-01-01
    相关资源
    最近更新 更多