【问题标题】:Using LD_LIBRARY_PATH in Cloud Dataproc Pyspark在 Cloud Dataproc Pyspark 中使用 LD_LIBRARY_PATH
【发布时间】:2017-06-22 19:34:58
【问题描述】:

我在 Cloud Dataproc 上设置了一个高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包。

对于虚拟环境:我让PYSPARK_PYTHON 指向虚拟环境中存在的python。

但是这些库无法工作,因为当我执行 gcloud dataproc jobs submit.... 时未设置 LD_LIBRARY_PATH

我试过了:

  1. 在工人和主人上设置spark-env.sh以导出LD_LIBRARY_PATH
  2. 设置spark.executorEnv.LD_LIBRARY_PATH
  3. 创建初始化脚本,其中 (1) 在初始化期间添加

但是这两个都失败了。

【问题讨论】:

  • spark.driver.extraLibraryPathspark.executor.extraLibraryPath呢?
  • 是的,我尝试使用 SparkConfig 添加它 - 它对我不起作用

标签: pyspark google-cloud-platform google-cloud-dataproc


【解决方案1】:

这终于奏效了:

运行 gcloud 命令为:

gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2" 

当我尝试在 pyspark 脚本中设置 spark.executorEnv(使用 Spark Config 对象)时,它没有工作。不知道为什么?

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多