【发布时间】:2023-03-28 12:30:02
【问题描述】:
我通常会使用 Java 以这种方式将数据从 Cassandra 加载到 Apache Spark:
SparkContext sparkContext = StorakleSparkConfig.getSparkContext();
CassandraSQLContext sqlContext = new CassandraSQLContext(sparkContext);
sqlContext.setKeyspace("midatabase");
DataFrame customers = sqlContext.cassandraSql("SELECT email, first_name, last_name FROM store_customer " +
"WHERE CAST(store_id as string) = '" + storeId + "'");
但是假设我有一个分片,我需要将几个分区键加载到这个 DataFrame 中。我可以在查询中使用 WHERE IN (...) 并再次使用 cassandraSql 方法。但是我有点不愿意使用 WHERE IN,因为在协调节点方面存在单点故障这一臭名昭著的问题。此处对此进行了解释:
有没有办法使用多个查询但将它们加载到单个 DataFrame 中?
【问题讨论】:
标签: apache-spark cassandra-2.0 datastax spark-cassandra-connector