Apache Nutch 使用什么数据库来存储 URL？

【问题标题】：What database does Apache Nutch use for storing URLs?Apache Nutch 使用什么数据库来存储 URL？
【发布时间】：2021-07-11 19:29:08
【问题描述】：

我试图查看它的依赖关系（请参阅here），但我无法弄清楚它用于存储 URL 和处理抓取进度的用途。从教程要求来看（参见here），它不需要任何第三方系统，例如一些 SQL 数据库。

那么它有什么用呢？

感谢您的任何建议！

【问题讨论】：

标签： nutch

【解决方案1】：

Nutch 1.x 将数据存储在 Hadoop MapFiles 和 SequenceFiles 中。 Apache Nutch 是一个基于批处理的爬虫，数据是

一次写入/多次读取与在每个爬网周期中创建和填充的段一样
或在添加新数据时重写：保存 URL 和状态信息（获取状态和日期、签名/校验和、分数、元数据）的“CrawlDb”

Nutch 2.x（已停用）将所有数据放入单个“Web 表”中 - 通过 Apache Gora 将扩展和分发委托给大数据存储（HBase 等）。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2010-11-05
2015-07-01
1970-01-01

相关资源

下载 2022-12-25
下载 2023-04-04
下载 2022-12-31

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode