【发布时间】:2016-02-10 13:37:50
【问题描述】:
我是 Spark 和 Cassandra 的新手。我面临一个主要的性能问题。我在 Spark 中每 5 秒从 Kafka 流式传输数据,然后使用 JRI 对 R 语言中的数据执行分析,最后将数据保存到 Cassandra 各自的列族。将数据保存到 Cassandra 的持续时间(以毫秒为单位)随着输入请求数量的增加而迅速增加 [每个请求为 200KB]。
火花代码:
sessionData.foreachRDD(new Function<JavaRDD<NormalizedData>, Void>() {
public Void call(JavaRDD<NormalizedData> rdd) {
System.out.println("step-3 " + System.currentTimeMillis());
javaFunctions(rdd).writerBuilder("keyspace",normalized_data",mapToRow(NormalizedData.class)).saveToCassandra();
System.out.println("step-4 " + System.currentTimeMillis());}}
【问题讨论】:
-
spark-default.conf:connection.spark.Cassandra.connection.keep_alive_ms 3600000 spark.Cassandra.output.batch.size.rows 2 spark.cassandra.output.concurrent.writes10 spark.cassandra.output .batch.size.bytes 2m spark.cassandra.input.split.size_in_mb 1 mb请告诉我
标签: apache-spark cassandra spark-cassandra-connector