【问题标题】:Weird error in initializing sparkContext python初始化 sparkContext python 的奇怪错误
【发布时间】:2017-11-15 03:57:34
【问题描述】:

我一直在使用 spark 2.0.1,但尝试通过将 tar 文件下载到本地并更改路径来升级到更新版本,即 2.1.1。

但是,现在当我尝试运行任何程序时,它在 sparkContext 的初始化时失败。即

    sc = SparkContext()

我试图运行的整个示例代码是:

     import os
     os.environ['SPARK_HOME']="/opt/apps/spark-2.1.1-bin-hadoop2.7/"

     from pyspark import SparkContext
     from pyspark.sql import *
     sc = SparkContext()

     sqlContext = SQLContext(sc)

     df_tract_alpha= sqlContext.read.parquet("tract_alpha.parquet")
     print (df_tract_alpha.count())

我得到的例外是在开始本身,即:

回溯(最近一次通话最后): 文件“/home/vna/scripts/global_score_pipeline/test_code_here.py”,第 47 行,在 sc = SparkContext() 文件“/opt/apps/spark-2.1.1-bin-hadoop2.7/python/pyspark/context.py”,第 118 行,在 __init__ conf、jsc、profiler_cls) _do_init 中的文件“/opt/apps/spark-2.1.1-bin-hadoop2.7/python/pyspark/context.py”,第 182 行 self._jsc = jsc 或 self._initialize_context(self._conf._jconf) _initialize_context 中的文件“/opt/apps/spark-2.1.1-bin-hadoop2.7/python/pyspark/context.py”,第 249 行 返回 self._jvm.JavaSparkContext(jconf) 文件“/opt/apps/spark-2.1.1-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py”,第 1401 行,在 __call__ 文件“/opt/apps/spark-2.1.1-bin-hadoop2.7/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py”,第 319 行,在 get_return_value py4j.protocol.Py4JJavaError:调用 None.org.apache.spark.api.java.JavaSparkContext 时出错。 :java.lang.NumberFormatException:对于输入字符串:“Ubuntu” 在 java.base/java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)

我没有在我的变量或我的 ENV 变量中的任何地方传递 Ubuntu..

我也试过改sc = SparkContext(master='local'),问题还是一样。

请帮助确定此问题

编辑:spark-defaults.conf 的内容

spark.master spark://master:7077 # spark.eventLog.enabled true # spark.eventLog.dir hdfs://namenode:8021/directory spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.memory 8g spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="一二三" spark.driver.extraClassPath /opt/apps/spark-2.1.1-bin-hadoop2.7/jars/mysql-connector-java-5.1.35-bin.jar spark.executor.extraClassPath /opt/apps/spark-2.1.1-bin-hadoop2.7/jars/mysql-connector-java-5.1.35-bin.jar

【问题讨论】:

    标签: python apache-spark pyspark


    【解决方案1】:

    您是否检查过您的配置文件(例如spark-defaults.conf)?对于需要整数的字段,这可能是解析错误。例如,如果您尝试设置 spark.executor.cores Ubuntu,您可能会遇到该异常。

    【讨论】:

    • 我已经检查了我的配置。他们似乎很好,现在在问题中添加了内容。我什至没有使用 spark executor cores。
    • 甚至是 grep -R "Ubuntu" 。在 spark 文件夹中没有产生任何结果
    • 很奇怪。我可能会尝试使用命令行 shell 工具来查看是否可以打开上下文。有时 scala one (spark-shell) 会提供更好的错误信息; pyspark 错误消息往往会被 py4j 界面所掩盖。
    • 不确定是什么问题,但在机器上全新安装后,sparkContexts 正在创建并正常工作
    猜你喜欢
    • 1970-01-01
    • 2022-01-25
    • 2019-02-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多