【发布时间】:2015-10-28 19:04:57
【问题描述】:
我是 Spark/Spark Cassandra 连接器的新手。我们在团队中第一次尝试使用 spark,我们正在使用 spark cassandra 连接器连接到 cassandra 数据库。
我写了一个查询,它使用了一个庞大的数据库表,我看到 Spark 任务直到查询到表的所有记录才开始。
仅从数据库中获取所有记录就需要 3 个多小时。
从我们使用的数据库中获取数据。
CassandraJavaUtil.javaFunctions(sparkContextManager.getJavaSparkContext(SOURCE).sc())
.cassandraTable(keyspaceName, tableName);
即使所有数据都没有完成下载,有没有办法告诉 spark 开始工作?
是否可以选择告诉 spark-cassandra-connector 使用更多线程进行提取?
谢谢, kokou。
【问题讨论】:
标签: apache-spark spark-streaming apache-spark-sql spring-data-cassandra spark-cassandra-connector