【发布时间】:2015-03-24 15:31:44
【问题描述】:
为什么我们使用 CDH (cloudera) 而不是使用 Apache-Hadoop 或 Apache-Spark ets。独自?它有什么优势?
如果我想使用 Apache-Spark 进行数据分析,是单独使用 CDH 还是 Apache-Spark Framework 更好?
谢谢
【问题讨论】:
标签: hadoop bigdata apache-spark cloudera cloudera-cdh
为什么我们使用 CDH (cloudera) 而不是使用 Apache-Hadoop 或 Apache-Spark ets。独自?它有什么优势?
如果我想使用 Apache-Spark 进行数据分析,是单独使用 CDH 还是 Apache-Spark Framework 更好?
谢谢
【问题讨论】:
标签: hadoop bigdata apache-spark cloudera cloudera-cdh
嗯,CDH 是一个“Hadoop 发行版”。对我来说,它是“一种安装 Hadoop 的简单方法”,并且有一个很好的管理 Web 界面。所以你不能真正使用CDH 代替 Hadoop。 (就像你不能用 Red Hat 代替 Linux。)
Spark 也可以在没有 Hadoop 的情况下作为独立集群运行。但是,您将无法使用 HDFS 资源位置信息和 YARN 调度。
要开始使用 Spark,我建议先尝试独立集群,因为 Hadoop 是一个非常适合入门的野兽。但是,如果您从一开始就需要 HDFS 功能,那么我想您无论如何都必须设置 Hadoop(以任何形式)。
【讨论】: