使用 CDH (cloudera) 有什么好处？ [关闭]答案

【问题标题】：What is the benefit of using CDH (cloudera)? [closed]使用 CDH (cloudera) 有什么好处？ [关闭]
【发布时间】：2015-03-24 15:31:44
【问题描述】：

为什么我们使用 CDH (cloudera) 而不是使用 Apache-Hadoop 或 Apache-Spark ets。独自？它有什么优势？

如果我想使用 Apache-Spark 进行数据分析，是单独使用 CDH 还是 Apache-Spark Framework 更好？

谢谢

【问题讨论】：

【解决方案1】：

嗯，CDH 是一个“Hadoop 发行版”。对我来说，它是“一种安装 Hadoop 的简单方法”，并且有一个很好的管理 Web 界面。所以你不能真正使用CDH 代替 Hadoop。（就像你不能用 Red Hat 代替 Linux。）

Spark 也可以在没有 Hadoop 的情况下作为独立集群运行。但是，您将无法使用 HDFS 资源位置信息和 YARN 调度。

要开始使用 Spark，我建议先尝试独立集群，因为 Hadoop 是一个非常适合入门的野兽。但是，如果您从一开始就需要 HDFS 功能，那么我想您无论如何都必须设置 Hadoop（以任何形式）。

【讨论】：

感谢您的回答。但是对于 Spark 入门，为什么建议先尝试单机集群？为什么我不使用自带 Spark 的 CDH？
请注意，即使在 CDH 上，也有两种可用的 Spark，独立版本（Spark 守护程序仅安装在每个节点上）和 YARN 版本（执行程序以资源协商的结果）。否则，就我自己而言，我只是发现安装 CDH 是一个非常漫长且部分令人沮丧的过程，所以当我开始使用仅部分相关的技术时，我不会试图避免这个障碍。
这取决于长远的眼光。如果您继续使用 spark - 或者会发展并使用更多的生态系统。