【发布时间】:2015-09-03 22:33:12
【问题描述】:
我一直在使用 pyspark-cassandra 0.1.5 和 spark 1.4.1(最新版本)。
但正常计数 1519784 条 cassandra 记录需要 70 秒。
从stackoverflow中的this问题,我了解到在定义SparkConf时使用“spark.cassandra.input.split.size_in_mb”,将有助于减少时间。
但我得到以下错误,同时在我的 python 代码中包含相同的错误
py4j.protocol.Py4JJavaError: An error occurred while calling o93.cassandraTable.
: com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
Only known spark.cassandra.* variables are allowed when using the Spark Cassandra Connector.
spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variable.
Possible matches:
spark.cassandra.input.split.size
我相信我在做一些愚蠢的事情。我是 Spark 的新手,请帮忙。
【问题讨论】:
标签: python cassandra apache-spark pyspark