【问题标题】:How to setup Spark with a multi node Cassandra cluster?如何使用多节点 Cassandra 集群设置 Spark?
【发布时间】:2018-01-18 21:11:49
【问题描述】:

首先,我使用 DSE Cassandra。我正在自己构建它并使用 Microsoft Azure 来托管服务器。

我有一个 2 节点 Cassandra 集群,我已设法在单个节点上设置 Spark,但我找不到任何有关在多节点集群上设置它的在线资源。

这不是how to setup spark Cassandra multi node cluster?的重复项

要在单个节点上设置它,我遵循了本教程“Setup Spark with Cassandra Connector”。

【问题讨论】:

    标签: apache-spark cassandra spark-cassandra-connector


    【解决方案1】:

    这里有两个高级任务:

    1. 设置 Spark(单节点或集群);
    2. 设置 Cassandra(单节点或集群);

    这些任务是不同的并且不相关(如果我们不是在谈论数据局部性)。 如何在集群中设置 Spark,您可以在此处找到 Architecture overview。 通常有两种类型(独立的,直接在主机上设置 Spark,或者使用任务调度程序(Yarn,Mesos)),您应该根据您的要求。 由于您都是自己构建的,我想您将使用Standalone installation。一个节点之间的区别在于网络通信。默认情况下,Spark 在 localhost 上运行,更常见的是它使用 FQDNS 名称,因此您应该在 /etc/hosts 和 hostname -f 中配置它或尝试使用 IP。 查看this page,它包含节点通信所需的所有端口。所有端口都应该在节点之间打开并且可用。 请注意,默认情况下 Spark 使用带有随机端口的 TorrentBroadcastFactory

    对于 Cassandra,请参阅此文档:12、教程3 等。 您可能需要4。您还可以使用 docker containers 在 Mesos 中使用 Cassandra。

    附言如果数据局部性是你的情况,你应该想出你自己的东西,因为 Mesos 和 Yarn 都不会处理更接近 Cassandra 分区的分区数据的运行 spark 作业。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-12
      • 2012-01-23
      • 1970-01-01
      • 2021-04-23
      • 2013-04-05
      相关资源
      最近更新 更多