Hadoop生态系统部署步骤答案

【问题标题】：Hadoop ecosystem deployment stepsHadoop生态系统部署步骤
【发布时间】：2012-05-19 19:06:03
【问题描述】：

我正在尝试将 Apache Hadoop 堆栈中的所有项目设置在一个集群中。搭建 apache hadoop 生态系统框架的顺序是什么。例如：Hadoop、HBase、... 如果您使用一组特定的步骤进行测试，您能否判断在部署过程中会遇到什么样的问题。主要部署框架（Hadoop、HBase、Pig、Hive、HCatalog、Mahout、Giraph、ZooKeeper、Oozie、avro、sqoop、mrunit、crunch，如有遗漏请补充）

【问题讨论】：

还有 Apache Hama ;)
Hama 工作在 Hadoop 之上还是仅仅 HDFS 就足够了？
它只适用于 HDFS，就像 Hbase 一样。
Hadoop 2 部署here

标签： apache deployment configuration hadoop mapreduce

【解决方案1】：

您可能会觉得有趣并且可能会帮助您提供指导和想法的两个有趣的开源项目是：

Apache Whirr - http://whirr.apache.org/
Apache Bigtop - http://incubator.apache.org/bigtop/

看看他们做什么/使用什么来部署你提到的项目，然后问自己：“你真的需要自己做/以不同的方式做吗？” ;-)

【讨论】：

Whirr 用于云，Bigtop 主要用于 Hadoop 版本及其相关项目之间的兼容性测试。只是为了澄清这一点。

【解决方案2】：

我会说部署是根据主要要求完成的，并且根据要求，您将选择需要哪些其他组件。我认为Hadoop设置如下： 1. Hadoop Core（Hadoop Common + HDFS + MapReduce -> 一个单一的大组件） 2. Hadoop 组件（取决于选择）

例如，您仅设置 1) 您仍然可以在将数据处理到 HDFS 的同时运行 MapReduce 作业。我希望你明白我的意思。

例如，现在您想使用 Hive 和 Pig 进行数据分析工作，为此您可以在其上设置 Hive 和 Pig。

同时，您决定将此 Hadoop 集群与 SQL Server/SQL Azure 连接，以便将数据从 SQL Server/SQL Azure 导入 HDFS。为此，您可以设置 HiveODBC 和 Sqoop，这将为您提供将数据导入/导出 HDFS 到 SQL Server/Azure 的功能。 HiveODBC 和 Sqoop 为您提供了将本地 Excel 和 Power Pivot 直接连接到 HDFS 并从那里获取配置单元表的功能。

如果您想在 HDFS 之上设置一个非 SQL 数据库，您当然可以选择 HBASE，它将位于 HDFS 之上，您可以在其上运行 MapReduce 作业。

等等取决于您的要求，您可以创建一个列表，并在您的集群/集群中进行设置。只要您有基本的 Hadoop 核心（见上文），就没有硬性规定需要什么，其余的可以在任何核心设置之上完成。

我

【讨论】：

【解决方案3】：

有不同的订单，因为并非所有列出的产品都是依赖的。
简而言之：
1. Hadoop（HDFS、MapReduce）
2. Pig、Hive、sqoop、Oozie
2. Zookeeper（HBase 需要）
3. HBase

我不是 100% 确定 Mahout、MRUnit 依赖项，但我认为 Hadoop 仅在需要时使用。
Avro 不直接依赖于 hadoop——它是序列化库。

【讨论】：