【发布时间】:2020-01-11 21:53:30
【问题描述】:
我正在使用 spark-sql-2.4.1 ,spark-cassandra-connector_2.11-2.4.1 和 java8 和 apache cassandra 3.0 版本。
我有如下的 spark-submit 或 spark 集群环境来加载 20 亿条记录。
--executor-cores 3
--executor-memory 9g
--num-executors 5
--driver-cores 2
--driver-memory 4g
使用以下配置
cassandra.concurrent.writes=1500
cassandra.output.batch.size.rows=10
cassandra.output.batch.size.bytes=2048
cassandra.output.batch.grouping.key=partition
cassandra.output.consistency.level=LOCAL_QUORUM
cassandra.output.batch.grouping.buffer.size=3000
cassandra.output.throughput_mb_per_sec=128
工作大约需要 2 小时,时间真的很长
当我检查日志时,我看到 警告 com.datastax.spark.connector.writer.QueryExecutor - BusyPoolException
如何解决这个问题?
【问题讨论】:
标签: apache-spark cassandra apache-spark-sql datastax-java-driver spark-cassandra-connector