【问题标题】:Kafka and apache Spark streaming cluster configurationKafka 和 apache Spark 流式集群配置
【发布时间】:2017-07-30 08:01:40
【问题描述】:

我需要在机器集群上运行一些 Spark scala 脚本。数据由在其中一台机器上运行的 Apache Kafka 生产者生成。

我已经在 Apache Spark 的 conf 目录中配置了 slaves.template 文件,其中包含集群每个节点的 URL。

我使用以下指令运行脚本: ./bin/spark-submit --class com.unimi.lucaf.App /Users/lucaferrari/scala-spark-script2/target/scala-spark-script-1.0.jar 不过好像只在主节点上运行。

我该如何解决?

谢谢

已解决

  1. 在文件夹conf 中将slaves.template 文件重命名为slaves 并添加了每个worker 的URL
  2. 在文件夹conf 中将spark-env.sh.template文件重命名为spark-env.sh 并添加以下行:

    SPARK_MASTER_HOST=1.2.3.4

    SPARK_MASTER_PORT=7077

    SPARK_MASTER_WEBUI_PORT=4444

    SPARK_WORKER_WEBUI_PORT=8081

  3. 在主计算机上的文件夹 sbin 中,我运行 start-master.sh 脚本。
  4. 在每个工作人员上,在文件夹 sbin 我运行 start-slave.sh spark://master-url:master-portmaster-urlmaster-port 必须在 spark-env.sh 文件中配置相同。
  5. 在脚本的 spark 配置中,我还添加了 master-url (val sparkConf = new SparkConf().setAppName("SparkScript").setMaster("spark://master-url:master-port")
  6. 使用./bin/spark-submit --class com.unimi.lucaf.App /home/spark1/scala-spark-script2/target/scala-spark-script-1.0.jar --master spark://master-url:master-port --deploy-mode cluster 运行脚本

【问题讨论】:

标签: apache-spark apache-kafka spark-streaming


【解决方案1】:

你有没有尝试添加

--master <master_url>

选项?如果您在 spark-submit 中省略此选项,它将在本地运行。

您还可以查看 Spark 关于 spark-submit 选项的文档:https://spark.apache.org/docs/latest/submitting-applications.html#launching-applications-with-spark-submit

【讨论】:

    猜你喜欢
    • 2015-12-12
    • 2019-09-18
    • 2021-01-03
    • 1970-01-01
    • 1970-01-01
    • 2016-09-22
    • 2020-05-12
    • 1970-01-01
    • 2019-07-23
    相关资源
    最近更新 更多