【发布时间】:2016-03-03 03:10:37
【问题描述】:
我正在启动一个 pyspark 程序:
$ export SPARK_HOME=
$ export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.9-src.zip
$ python
还有py代码:
from pyspark import SparkContext, SparkConf
SparkConf().setAppName("Example").setMaster("local[2]")
sc = SparkContext(conf=conf)
如何添加 jar 依赖项,例如 Databricks csv jar?使用命令行,我可以像这样添加包:
$ pyspark/spark-submit --packages com.databricks:spark-csv_2.10:1.3.0
但我没有使用这些。该程序是不使用 spark-submit 的更大工作流的一部分 我应该能够运行我的 ./foo.py 程序并且它应该可以正常工作。
- 我知道您可以为 extraClassPath 设置 spark 属性,但您必须将 JAR 文件复制到每个节点?
- 尝试了 conf.set("spark.jars", "jar1,jar2") 对 py4j CNF 异常也不起作用
【问题讨论】:
标签: python apache-spark pyspark