【问题标题】:spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variablespark.cassandra.input.split.size_in_mb 不是有效的 Spark Cassandra 连接器变量
【发布时间】:2015-09-03 22:33:12
【问题描述】:

我一直在使用 pyspark-cassandra 0.1.5 和 spark 1.4.1(最新版本)。

但正常计数 1519784 条 cassandra 记录需要 70 秒。

从stackoverflow中的this问题,我了解到在定义SparkConf时使用“spark.cassandra.input.split.size_in_mb”,将有助于减少时间。

但我得到以下错误,同时在我的 python 代码中包含相同的错误

py4j.protocol.Py4JJavaError: An error occurred while calling o93.cassandraTable.
: com.datastax.spark.connector.util.ConfigCheck$ConnectorConfigurationException: Invalid Config Variables
Only known spark.cassandra.* variables are allowed when using the Spark Cassandra Connector.
spark.cassandra.input.split.size_in_mb is not a valid Spark Cassandra Connector variable.
Possible matches:
spark.cassandra.input.split.size

我相信我在做一些愚蠢的事情。我是 Spark 的新手,请帮忙。

【问题讨论】:

    标签: python cassandra apache-spark pyspark


    【解决方案1】:

    pyspark-cassandra 使用 Spark Cassandra 连接器 1.2.x,在该版本中,参数名为 spark.cassandra.input.split.size。查看那里的错误消息,它告诉您...split_size_in_mb 无效,但也许您的意思是...split.size

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-03-30
      • 1970-01-01
      • 2016-02-16
      • 1970-01-01
      • 2015-10-08
      • 2015-03-12
      • 2018-11-28
      • 1970-01-01
      相关资源
      最近更新 更多