【问题标题】:What database does Apache Nutch use for storing URLs?Apache Nutch 使用什么数据库来存储 URL?
【发布时间】:2021-07-11 19:29:08
【问题描述】:

我试图查看它的依赖关系(请参阅here),但我无法弄清楚它用于存储 URL 和处理抓取进度的用途。从教程要求来看(参见here),它不需要任何第三方系统,例如一些 SQL 数据库。

那么它有什么用呢?

感谢您的任何建议!

【问题讨论】:

    标签: nutch


    【解决方案1】:

    Nutch 1.x 将数据存储在 Hadoop MapFiles 和 SequenceFiles 中。 Apache Nutch 是一个基于批处理的爬虫,数据是

    • 一次写入/多次读取与在每个爬网周期中创建和填充的段一样
    • 或在添加新数据时重写:保存 URL 和状态信息(获取状态和日期、签名/校验和、分数、元数据)的“CrawlDb”

    Nutch 2.x(已停用)将所有数据放入单个“Web 表”中 - 通过 Apache Gora 将扩展和分发委托给大数据存储(HBase 等)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2010-11-05
      • 2015-07-01
      • 1970-01-01
      相关资源
      最近更新 更多