【问题标题】:Information on Nutch , Hadoop , Solr, MapReduce and MahoutNutch、Hadoop、Solr、MapReduce 和 Mahout 的信息
【发布时间】:2012-07-04 10:01:47
【问题描述】:
PS:如有错误请指正
我正在使用 Nutch 和 Solr 构建一个搜索引擎。
我知道通过使用 Solr,我可以提高 Searching 的效率——让 Nutch 独自完成整个网络的抓取。
我还知道 Hadoop 用于通过形成集群和 MapReduce 来处理 PB 级的数据。
现在,我想知道的是
1) 因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑......在我的情况下,Hadoop 在形成集群时有什么好处?如何仅在一台机器上形成集群??
2) 在我的情况下,MapReduce 的重要性是什么?
3) MAHOUT、CASSANDRA 和 HBASE 将如何影响我的引擎???
非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请向我道歉!
谢谢
问候
【问题讨论】:
标签:
solr
hadoop
mapreduce
nutch
mahout
【解决方案1】:
1) 因为,我将只在一台机器上运行这些开源软件,即我在本地主机上的笔记本电脑... Hadoop 在形成集群时对我有什么好处?
Hadoop 旨在处理大规模数据。 Hadoop是一个
分布式应用。它不会为您提供福利
单机。
如何在一台机器上形成集群??
以伪集群模式安装Hadoop
在我的情况下,MapReduce 的重要性是什么?
同样,如果您想处理由爬虫抓取的 1000 GB 规模的页面。 Map-Reduce 在处理如此大的数据时很有用
MAHOUT、CASSANDRA 和 HBASE 将如何影响我的引擎???
它们是满足不同需求的不同工具。
Mahout 是机器
适合在 Hadoop 上作为 map-reduce 任务运行的学习算法
或本地文件。你想学习像谷歌翻译这样的语言吗?
你可以使用它。
HBase 是一个 no-sql 数据库,可提供更多实时数据
对 map-reduce 更有用的临时分析进行处理。
我建议你回到你的问题陈述,使用尽可能少的工具进行设计,当你点击笔记时,你会明白其中一些工具何时有用。