【发布时间】:2021-09-04 14:27:30
【问题描述】:
我正在尝试使用 Spark Cassandra 连接器对 Cassandra 中的数据进行分析,并发现了两种类型的实现。任何人都可以阐明两者之间的区别和优点/缺点吗?我正在尝试查看使用哪一个来查询大型数据集。谢谢
选项 1 - 使用 Spark Session SQL
sparkSession.read
.format("org.apache.spark.sql.cassandra")
.options(Map( "table" -> table, "keyspace" -> keyspace))
.load()
选项 2 - 使用 SCC API
CassandraJavaUtil.javaFunctions(sc)
.cassandraTable("my_keyspace", "my_table", .mapColumnTo(Integer.class))
.select("column1");
【问题讨论】:
标签: apache-spark cassandra spark-cassandra-connector