【发布时间】:2021-07-11 19:29:08
【问题描述】:
我试图查看它的依赖关系(请参阅here),但我无法弄清楚它用于存储 URL 和处理抓取进度的用途。从教程要求来看(参见here),它不需要任何第三方系统,例如一些 SQL 数据库。
那么它有什么用呢?
感谢您的任何建议!
【问题讨论】:
标签: nutch
我试图查看它的依赖关系(请参阅here),但我无法弄清楚它用于存储 URL 和处理抓取进度的用途。从教程要求来看(参见here),它不需要任何第三方系统,例如一些 SQL 数据库。
那么它有什么用呢?
感谢您的任何建议!
【问题讨论】:
标签: nutch
Nutch 1.x 将数据存储在 Hadoop MapFiles 和 SequenceFiles 中。 Apache Nutch 是一个基于批处理的爬虫,数据是
Nutch 2.x(已停用)将所有数据放入单个“Web 表”中 - 通过 Apache Gora 将扩展和分发委托给大数据存储(HBase 等)。
【讨论】: