【问题标题】:Is it possible to deploy Spark worker without Cassandra with DataStax是否可以在没有 Cassandra 的情况下使用 DataStax 部署 Spark 工作者
【发布时间】:2017-11-02 03:44:13
【问题描述】:

目前,我们有一个运行 3 个 Spark 节点的项目。我们想要扩展 Spark 工作者。但是,让每个 spark 节点在 Cassandra 节点之上运行在 CPU/内存使用方面非常昂贵。我的问题是,是否可以在没有 Cassandra 的情况下使用 DataStax 部署 Spark 工作人员?

【问题讨论】:

    标签: apache-spark cassandra datastax


    【解决方案1】:

    您通常会在每个 Cassandra 节点上部署一个 Spark-worker 以支持数据本地性(如果可能,spark-worker 将优先访问它的本地节点)。 但是,如果您真的想将 spark 服务与 cassandra 服务分离,您有几个选择:

    1. 如果您当然订阅了,请直接咨询 DSE 支持。
    2. 在新节点上部署新的 spark-worker,并将其配置为连接到现有的 spark-master。本质上,启动 spark-slave.sh 。如果正确完成,这应该可以工作。当然,DSE 会有一些集成问题,您需要尝试看看。您必须管理防火墙规则、dns 解析等...当然,您还必须手动配置分配给这个新节点的 CPU 和 RAM 数量。
    3. 将 apache-spark 与 DSE 完全分离 => 仅使用 Cassandra-DSE,并在 3 个 Cassandra 节点中的每一个 + 一个附加节点上安装 Apache Spark。这肯定行得通,但涉及到一些工作,包括配置自己的 spark-master、处理 HA(如果需要)、正确拆分 DSE 和 Apache Spark 之间的 RAM 分配。 Cassandra 咨询公司的臀部可以在需要时为您提供帮助,instaclustr 只是其中之一。

    祝你好运!

    【讨论】:

      猜你喜欢
      • 2019-01-14
      • 2010-09-27
      • 1970-01-01
      • 2018-01-17
      • 2021-07-29
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多