【发布时间】:2020-07-12 11:57:23
【问题描述】:
我们在带有默认 python 2.7 的 RHEL 7 机器上安装了 cloudera CDH 6.2。在虚拟环境中使用 python 3.7 来提交 pyspark 作业。带有 --master local 和 --deploy-mode 客户端的客户端模式运行良好。但是, --master yarn 和 --deploy-mode 集群存在问题。
此命令 spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/home/user/R1_I5/bin/python --conf spark.yarn.appMasterEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark --conf spark.executorEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark sample.py 失败,出现以下 2 个错误
案例 1 错误日志:--deploy-mode cluster
Cannot run program "/home/user/R1_I5/bin/python": error=13, Permission denied
详细日志:https://drive.google.com/file/d/1J7HLNGABnStJ91ISHFBMdNe5OLEUQZ6B/view
案例 2 错误日志:--master yarn
以下两行重复,程序没有终止
INFO yarn.Client: Application report for application_1594339922772_0012 (state: ACCEPTED)
INFO yarn.SparkRackResolver: Got an error when resolving hostNames. Falling back to /default-rack for all
【问题讨论】:
标签: python apache-spark pyspark cloudera-cdh