【问题标题】:spark-submit failing in cluster mode with error 13, permission denied for pyspark jobspark-submit 在集群模式下失败,错误 13,pyspark 作业的权限被拒绝
【发布时间】:2020-07-12 11:57:23
【问题描述】:

我们在带有默认 python 2.7 的 RHEL 7 机器上安装了 cloudera CDH 6.2。在虚拟环境中使用 python 3.7 来提交 pyspark 作业。带有 --master local 和 --deploy-mode 客户端的客户端模式运行良好。但是, --master yarn 和 --deploy-mode 集群存在问题。

此命令 spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/home/user/R1_I5/bin/python --conf spark.yarn.appMasterEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark --conf spark.executorEnv.SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark sample.py 失败,出现以下 2 个错误

案例 1 错误日志:--deploy-mode cluster

Cannot run program "/home/user/R1_I5/bin/python": error=13, Permission denied 详细日志:https://drive.google.com/file/d/1J7HLNGABnStJ91ISHFBMdNe5OLEUQZ6B/view

案例 2 错误日志:--master yarn

以下两行重复,程序没有终止

INFO yarn.Client: Application report for application_1594339922772_0012 (state: ACCEPTED)
INFO yarn.SparkRackResolver: Got an error when resolving hostNames. Falling back to /default-rack for all

【问题讨论】:

    标签: python apache-spark pyspark cloudera-cdh


    【解决方案1】:
    1. 您需要检查目录“hdfs://dwh:8020/user//.sparkStaging/application_1594339922772_0011”的权限,并查看您正在运行程序的用户是否有权访问它。正确的方法是在 'hdfs://dwh:8020/user/username 下创建一个 'username' 目录并运行。
    2. 检查主机的主机名,这里的问题是它试图连接到配置中提到的主机但无法找到它。 你可以输入。转到 Cloudera 管理器并使用重新部署配置的选项,也 检查 /etc/hosts 并查看它是否与 Cloudera 管理器中提到的主机名匹配。

    【讨论】:

    • 嗨@patel 1。我将 hdfs://dwh:8020/user/ 中的用户文件夹的所有权更改为 hdfs:supergroup 777。我在 .sparkstaging 目录中找不到任何应用程序。这样做之后,仍然面临 spark-submit 问题中提到的错误。 2. 检查 /etc/hosts。那里有正确的主机名。您能否提及它是重新部署配置还是仅在 cloudera 管理器中部署配置?我只看到部署配置。谢谢,
    • 部署配置。还为运行作业的用户创建此目录,例如,对于用户“root”,对于该 sudo su hdfs hdfs dfs -mkdir /user/root hdfs dfs -chown,它将是“hdfs://dwh:8020/user/root” root:root /user/root
    • 嗨帕特尔,我部署了配置。此外,创建了 root 用户并按照指定更改了所有权。如案例 1 错误日志中所述,仍然在虚拟环境 R1_I5 中获得权限被拒绝
    • 好的,如果我们可以通过缩放或其他方式连接,请告诉我。
    • 谢谢。问题得到了解决。在我有权限限制的目录中创建 venv 导致发布的错误。将 venv 目录更改为 /usr/local 位置,它在集群模式下也没有问题。
    猜你喜欢
    • 2014-11-04
    • 1970-01-01
    • 2015-05-03
    • 2018-07-19
    • 1970-01-01
    • 1970-01-01
    • 2023-04-08
    • 2017-04-04
    • 2013-01-25
    相关资源
    最近更新 更多