【发布时间】:2016-08-20 16:30:59
【问题描述】:
我有 N 台机器上有 N 个节点的 Cassandra 集群。此外,我在每台机器上都有 spark worker。为了从 Cassandra 读取数据,我使用的是 Datastax spark-cassandra 连接器。当我设置工作人员(独立模式)时,我只为他们说主机。在驱动程序中,我通过 spark.cassandra.connection.host 属性指定 Cassandra 种子。我看到了很多关于数据局部性的介绍。但是我没有找到关于 spark-cassandra 连接器如何为每个工作人员选择本地节点的信息。哪个算法连接器用于此?
【问题讨论】:
标签: apache-spark cassandra spark-cassandra-connector