【问题标题】:Spark-submit configuration: jars,packagesSpark-提交配置:jars,packages
【发布时间】:2020-06-12 06:38:34
【问题描述】:

任何人都可以告诉我如何使用 jars 和 packages。

  1. 我正在开发网络应用程序。
  2. 用于发动机侧 spark-mongo

bin/spark-submit --properties-file config.properties --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.1,com.crealytics:spark-excel_2.11:0.13.1 /home/PycharmProjects/EngineSpark.py 8dh1243sg2636hlf38m

  • 我正在使用上述命令,但每次都从 maven 存储库(jar 和包)下载。
  • 所以现在我担心的是,如果我离线,它会给我错误
  • 如果他们以任何方式只下载一次就很好了,所以不需要每次都下载
  • 任何建议如何处理。

【问题讨论】:

    标签: mongodb pyspark spark-submit


    【解决方案1】:

    获取所有需要的 jar 文件,然后将它们作为参数传递给 spark-submit。

    这样您就无需每次提交 spark 作业时都下载文件。

    您必须使用--jars 而不是--packages

    bin/spark-submit --properties-file config.properties --jars /home/PycharmProjects/spark-excel_2.11-0.11.1.jar,/home/PycharmProjects/mongo-spark-connector_2.11-2.4.1.jar /home/PycharmProjects/EngineSpark.py 8dh1243sg2636hlf38m
    

    【讨论】:

    • 我从哪里得到 jar 文件?
    • 从 maven 仓库直接从谷歌下载
    • 线程“主”org.apache.spark.SparkException 中的异常:JAR 中没有设置主类;请用 --class 指定一个。
    • 你能发布你的确切命令吗,jar 文件之间应该没有空格我更新了我的答案
    • bin/spark-submit --properties-file config.properties --jars /home/PycharmProjects/spark-excel_2.11-0.11.1.jar,/home/PycharmProjects/mongo-spark- connector_2.11-2.4.1.jar /home/PycharmProjects/EngineSpark.py 5ee357e38910242a7b9797c8
    【解决方案2】:

    线程“main”org.apache.spark.SparkException 中的异常:JAR 中未设置主类;请用--class指定一个

    可能是找不到jar文件,可能是路径不对或者尝试给 最后 --jars 配置和 --class 先配置。

    【讨论】:

    • bin/spark-submit --properties-file config.properties --jars /home/PycharmProjects/spark-excel_2.11-0.11.1.jar,/home/PycharmProjects/mongo-spark- connector_2.11-2.4.1.jar /home/PycharmProjects/EngineSpark.py 5ee357e38910242a7b9797c8
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-12-04
    • 1970-01-01
    • 2014-10-30
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多