【发布时间】:2017-03-29 06:01:49
【问题描述】:
我从我自己的工作站上的 pycharm 启动 pyspark 应用程序到一个 8 节点集群。该集群还具有在 spark-defaults.conf 和 spark-env.sh 中编码的设置
这就是我获取 spark 上下文变量的方式。
spark = SparkSession \
.builder \
.master("spark://stcpgrnlp06p.options-it.com:7087") \
.appName(__SPARK_APP_NAME__) \
.config("spark.executor.memory", "50g") \
.config("spark.eventlog.enabled", "true") \
.config("spark.eventlog.dir", r"/net/share/grid/bin/spark/UAT/SparkLogs/") \
.config("spark.cores.max", 128) \
.config("spark.sql.crossJoin.enabled", "True") \
.config("spark.executor.extraLibraryPath","/net/share/grid/bin/spark/UAT/bin/vertica-jdbc-8.0.0-0.jar") \
.config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
.config("spark.logConf", "true") \
.getOrCreate()
sc = spark.sparkContext
sc.setLogLevel("INFO")
我想查看日志中使用的有效配置。这一行
.config("spark.logConf", "true") \
应该导致 spark api 将其有效配置作为 INFO 记录到日志中,但默认日志级别设置为 WARN,因此我看不到任何消息。
设置这条线
sc.setLogLevel("INFO")
显示 INFO 消息,但为时已晚。
如何设置 spark 开始时的默认日志记录级别?
【问题讨论】:
标签: apache-spark pyspark