【问题标题】:What's difference between HDInsight Hadoop cluster & HDInsight Spark cluster?HDInsight Hadoop 群集和 HDInsight Spark 群集有什么区别?
【发布时间】:2016-08-12 14:50:03
【问题描述】:

HDInsight Hadoop 集群和 HDInsight Spark 集群有什么区别?我已经看到即使在 Hadoop 集群中 pyspark 也是可用的。集群类型有区别吗?即 Hadoop 集群意味着 YARN 作为集群管理层,Spark 意味着 Spark Standalone(或 Mesos?)作为集群管理层?

如果是这样,我们仍然可以在 Hadoop 集群中运行 Spark,我相信 Spark 将在 YARN 之上运行。

【问题讨论】:

    标签: azure-hdinsight


    【解决方案1】:

    HDInsight Spark 使用 YARN 作为集群管理层,就像 Hadoop。集群上的二进制文件是相同的。

    HDInsight Spark 和 Hadoop 集群的区别如下:

    1) 优化配置: Spark 集群针对 Spark 工作负载进行了调整和配置。例如,我们预先配置了 Spark 集群使用 SSD 并根据机器资源调整执行器内存大小,因此客户将获得比 spark 默认配置更好的开箱即用体验。

    2) 服务设置: Spark 集群还运行与 Spark 相关的服务,包括 Livy、Jupyter 和 Spark Thrift Server。

    3) 工作负载质量:我们会在每次发布之前在 Spark 集群上测试 Spark 工作负载,以确保服务质量。

    【讨论】:

      【解决方案2】:

      这些位与您注意到的相同。不同之处在于默认运行的一组服务和 Ambari 组件(在 Spark 上,您将拥有额外的 spark thrift、livy、jupyter)以及这些服务的一组配置。因此,虽然您在技术上可以在 hadoop 集群上的 yarn 上运行 spark 作业,但不建议这样做,但某些配置可能未设置为最佳值。反过来会更可靠 - 创建 spark 集群并在其上运行 hadoop 作业。

      Maxim (HDInsight Spark PM)

      【讨论】:

      • 谢谢,这是有道理的。但是你的回答没有明确说明一件事——你是说 HDInsight Spark 不使用 YARN 作为集群管理层吗?如果不是,它使用哪一个? Mesos 还是 Spark Standalone?
      • docs.microsoft.com/en-us/azure/hdinsight/spark/…。根据 Azure 的这份文档,HDI 使用 YARN 作为集群管理器。
      猜你喜欢
      • 2018-02-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-22
      • 1970-01-01
      相关资源
      最近更新 更多