【发布时间】:2016-03-01 21:51:13
【问题描述】:
我将 Spark 与 MongoDB 一起使用,因此依赖于 mongo-hadoop 驱动程序。由于对我最初的问题here 的输入,我得到了工作。
我的 Spark 作业正在运行,但是,我收到了我不理解的警告。当我运行这个命令时
$SPARK_HOME/bin/spark-submit --driver-class-path /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-SNAPSHOT.jar --jars /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark-1.5.0-SNAPSHOT.jar my_application.py
它有效,但给了我以下警告信息
警告:本地 jar /usr/local/share/mongo-hadoop/build/libs/mongo-hadoop-1.5.0-SNAPSHOT.jar:/usr/local/share/mongo-hadoop/spark/build/libs/mongo-hadoop-spark- 1.5.0-SNAPSHOT.jar 不存在,跳过。
当我试图让它工作时,如果我在提交作业时遗漏了这些路径,它根本不会运行。但是,现在,如果我省略了这些路径,它确实会运行
$SPARK_HOME/bin/spark-submit my_application.py
有人可以解释一下这里发生了什么吗?我在这里查看了引用相同警告的类似问题,并搜索了文档。
通过设置一次选项,它们是否存储为环境变量或其他东西?我很高兴它有效,但要小心我不完全理解为什么有时而不是其他人。
【问题讨论】:
标签: mongodb hadoop jar apache-spark apache-spark-1.5