【发布时间】:2020-09-25 05:09:12
【问题描述】:
我正在使用 Nutch 1.17 抓取超过百万个网站。为此,我必须执行以下操作。
- 一次性将爬虫作为深度爬虫运行,以便从给定(100 万)个域中获取最大 URL。第一次,您最多可以运行 48 小时。
- 之后,在 5 到 6 小时后使用相同的 100 万个域运行爬网程序,并仅选择这些域上的新 URL。
- 作业完成后,在 Solr 中索引 URL
- 以后,不需要存储原始 HTML,因此节省存储空间 (HDFS),仅删除原始数据并维护每个页面元数据,以便在下一个作业中,我们应该避免再次重新获取页面(之前其预定时间)。
没有任何其他处理或后期分析。现在,我可以选择使用中等大小的 Hadoop 集群(最多 30 台机器)。每台机器都有 16GB RAM、12 核和 2 TB 存储。 Solr 机器也具有相同的空间。现在,为了保持上述观点,我对以下内容感到好奇:
a. How to achieve above document crawl rate i.e., how many machines are enough ?
b. Should I need to add more machines or is there any better solution ?
c. Is it possible to remove raw data from Nutch and keep metadata only ?
d. Is there any best strategy to achieve the above objectives.
【问题讨论】:
标签: hadoop solr hdfs nutch nutch2