【发布时间】:2017-06-22 19:34:58
【问题描述】:
我在 Cloud Dataproc 上设置了一个高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包。
对于虚拟环境:我让PYSPARK_PYTHON 指向虚拟环境中存在的python。
但是这些库无法工作,因为当我执行 gcloud dataproc jobs submit.... 时未设置 LD_LIBRARY_PATH
我试过了:
- 在工人和主人上设置
spark-env.sh以导出LD_LIBRARY_PATH - 设置
spark.executorEnv.LD_LIBRARY_PATH - 创建初始化脚本,其中 (1) 在初始化期间添加
但是这两个都失败了。
【问题讨论】:
-
spark.driver.extraLibraryPath和spark.executor.extraLibraryPath呢? -
是的,我尝试使用 SparkConfig 添加它 - 它对我不起作用
标签: pyspark google-cloud-platform google-cloud-dataproc