【问题标题】:how to overcome spark "cannot parse master URL" error?如何克服火花“无法解析主 URL”错误?
【发布时间】:2020-02-10 17:30:30
【问题描述】:

我在 Mac 上的 IntelliJ IDEA 中有以下简单代码:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf


object SparkGrep {
  def main(args: Array[String]) {
    if (args.length < 3) {
      System.err.println("Usage: SparkGrep <host> <input_file> <match_term>")
      System.exit(1)
    }
    val conf = new SparkConf().setAppName("SparkGrep").setMaster(args(0))
    val sc = new SparkContext(conf)
    val inputFile = sc.textFile(args(1), 2).cache()
    val matchTerm : String = args(2)
    val numMatches = inputFile.filter(line => line.contains(matchTerm)).count()
    println("%s lines in %s contain %s".format(numMatches, args(1), matchTerm))
    System.exit(0)
  }
}

在我的运行配置中,我添加了以下程序参数:

local[*] src/SparkGrep.scala val

当我运行此代码时,我收到以下错误:

Exception in thread "main" org.apache.spark.SparkException: Could not parse Master URL: 'local[*]'
    at org.apache.spark.SparkContext$.org$apache$spark$SparkContext$$createTaskScheduler(SparkContext.scala:1304)
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:199)
    at spark.SparkTest.SparkGrep$.main(SparkGrep.scala:26)
    at spark.SparkTest.SparkGrep.main(SparkGrep.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:144)

我可以做些什么来克服这个错误?

【问题讨论】:

  • local[*] 是什么?只需指定您的环回127.0.0.1
  • 我做了,但错误只是更改为:线程“主”org.apache.spark.SparkException 中的异常:无法解析主 URL:'127.0.0.1'
  • 错误现在显示:无效的主 URL
  • 只是为了让我正确理解这一点,您还没有运行 Spark 实例(本地/网格)。您想在每次运行此模块时实例化一个实例?无效的master表示7077上没有任何监听
  • 这只是我对 spark 的第一次尝试,所以我可以对本地实例进行实例化 - 只是想让这段代码正常运行

标签: scala apache-spark


【解决方案1】:

InetlliJ IDEA + MAC + SPARK

在每一步之后,让 intelliJ 准备好,因为从 maven 拉取数据有时会很慢

IntelliJ 设置

  1. Preferences &gt; Plugins &gt; Scala 安装 Scala 插件
  2. File &gt; New &gt; Project,在左侧窗格中选择Scala,在右侧窗格中选择SBT
  3. 右键项目名称>Open Module Settings>Libraries
  4. +模块图标 > Maven > org.apache.spark:spark-core_2.11:1.6.1 > Enter
  5. 将库添加到project name
  6. Spark 库应出现在“外部库”部分下
  7. src/main/scala 中的新 scala file 例如测试.scala

Test.scala

import org.apache.spark.{SparkContext,SparkConf}

object Test {
 def main(args: Array[String]){
 val conf = new SparkConf().setAppName("DevDemo").setMaster("local")
 val sc = new SparkContext(conf)
 val inputFile = sc.textFile("/var/log/fsck_hfs.log").cache()
// Creates a DataFrame having a single column named "line"
 val errAs = inputFile.filter(line => line.contains("ERROR"))
 println("Error count : %s".format(errAs.count()))
 }
}

IntelliJ

Run Menu > Run

结果:

16/06/13 14:39:19 INFO DAGScheduler: ResultStage 0 (count at Test.scala:14) finished in 1.258 s
16/06/13 14:39:19 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/06/13 14:39:19 INFO DAGScheduler: Job 0 finished: count at Test.scala:14, took 1.829030 s
Error count : 18

【讨论】:

    【解决方案2】:

    您应该尝试以下行

    val sc = new SparkContext(conf=conf)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2015-01-08
      • 2017-07-27
      • 2011-05-20
      • 2019-01-11
      • 2017-05-18
      • 1970-01-01
      • 2021-11-12
      相关资源
      最近更新 更多