【问题标题】:Spark files not found in cluster deploy mode在集群部署模式下找不到 Spark 文件
【发布时间】:2020-07-03 18:52:27
【问题描述】:

我正在尝试通过在 EMR 集群主节点中发出以集群部署模式运行 Spark 作业:

spark-submit --master yarn \
--deploy-mode cluster \
--files truststore.jks,kafka.properties,program.properties \ 
--class com.someOrg.somePackage.someClass s3://someBucket/someJar.jar kafka.properties program.properties

我收到以下错误,指出在 Spark 执行程序工作目录中找不到该文件:

//This is me printing the Spark executor working directory through SparkFiles.getRootDirectory()
20/07/03 17:53:40 INFO Program$: This is the path: /mnt1/yarn/usercache/hadoop/appcache/application_1593796195404_0011/spark-46b7fe4d-ba16-452a-a5a7-fbbab740bf1e/userFiles-9c6d4cae-2261-43e8-8046-e49683f9fd3e
        
//This is me trying to list the content for that working directory, which turns out empty.
20/07/03 17:53:40 INFO Program$: This is the content for the path:
                
//This is me getting the error:
    20/07/03 17:53:40 ERROR ApplicationMaster: User class threw exception: java.nio.file.NoSuchFileException: /mnt1/yarn/usercache/hadoop/appcache/application_1593796195404_0011/spark-46b7fe4d-ba16-452a-a5a7-fbbab740bf1e/userFiles-9c6d4cae-2261-43e8-8046-e49683f9fd3e/program.properties
                java.nio.file.NoSuchFileException: /mnt1/yarn/usercache/hadoop/appcache/application_1593796195404_0011/spark-46b7fe4d-ba16-452a-a5a7-fbbab740bf1e/userFiles-9c6d4cae-2261-43e8-8046-e49683f9fd3e/program.properties
                    at sun.nio.fs.UnixException.translateToIOException(UnixException.java:86)
                    at sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:102)
                    at sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:107)
                    at sun.nio.fs.UnixFileSystemProvider.newByteChannel(UnixFileSystemProvider.java:214)
                    at java.nio.file.Files.newByteChannel(Files.java:361)
                    at java.nio.file.Files.newByteChannel(Files.java:407)
                    at java.nio.file.spi.FileSystemProvider.newInputStream(FileSystemProvider.java:384)
                    at java.nio.file.Files.newInputStream(Files.java:152)
                    at ccom.someOrg.somePackage.someHelpers$.loadPropertiesFromFile(Helpers.scala:142)
                    at com.someOrg.somePackage.someClass$.main(someClass.scala:33)
                    at com.someOrg.somePackage.someClass.main(someClass.scala)
                    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
                    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
                    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
                    at java.lang.reflect.Method.invoke(Method.java:498)
                    at org.apache.spark.deploy.yarn.ApplicationMaster$$anon$2.run(ApplicationMaster.scala:685)

这是我用来尝试读取作为参数传递的属性文件的函数:

def loadPropertiesFromFile(path: String): Properties = {
    val inputStream = Files.newInputStream(Paths.get(path), StandardOpenOption.READ)
    val properties  = new Properties()
    properties.load(inputStream)
    properties
  }

调用为:

val spark = SparkSession.builder().getOrCreate()
import spark.implicits._
val kafkaProperties = loadPropertiesFromFile(SparkFiles.get(args(1)))
val programProperties = loadPropertiesFromFile(SparkFiles.get(args(2)))
//Also tried loadPropertiesFromFile(args({1,2}))

在客户端部署模式下,程序按预期运行:

spark-submit --master yarn \
--deploy-mode client \
--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.5 \
--files truststore.jks program.jar com.someOrg.somePackage.someClass kafka.properties program.properties

这发生在 Spark 2.4.5 / EMR 5.30.1 中。

此外,当我尝试将此作业配置为 EMR 步骤时,它甚至无法在客户端模式下工作。有关资源文件如何通过 --files 选项在 EMR 中管理/持久/可用的任何线索?

【问题讨论】:

  • 嗨@Ricardo,您是否在日志中看到您在--files 下提到的文件被移动到类路径的某些位置?如果没有,它无法从您正在执行 spark 提交的节点中找到文件。
  • @SathiyanS 我假设如果文件在我部署 spark-submit 的机器上可用,它们将与驱动程序一起运送到工作节点。事实证明不是。我现在指向 S3,一切都按预期工作。谢谢!

标签: scala apache-spark amazon-emr


【解决方案1】:

选项 1:将这些文件放在 s3 中并传递 s3 路径。 选项 2:将这些文件复制到特定位置的每个节点(使用引导程序)并传递文件的绝对路径。

【讨论】:

  • 不能直接引用s3吗?这将节省存储空间,最重要的是易于维护。
  • 这就是我提到的选项 1。
  • 我按照方法 1 解决了我的问题。谢谢@srikanthholur!
【解决方案2】:

根据上述 cmets 的建议解决了:

spark-submit --master yarn \
--deploy-mode cluster \
--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.5 \
--files s3://someBucket/resources/truststore.jks,s3://someBucket/resources/kafka.properties,s3://someBucket/resources/program.properties \
--class com.someOrg.someClass.someMain \
s3://someBucket/resources/program.jar kafka.properties program.properties

我之前假设在 cluster 部署模式下,--files 下的文件也与部署到工作节点的驱动程序一起发送(因此在工作目录中可用),如果可以从 spark-submit 的机器访问已发布。

底线:无论您从哪里发出 spark-submit 以及该机器中文件的可用性,在集群模式下,您都必须确保可以从每个工作节点访问文件。

现在通过将文件位置指向 S3 来工作。

谢谢大家!

【讨论】:

    猜你喜欢
    • 2016-06-05
    • 2017-07-10
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-03-10
    • 1970-01-01
    • 2014-07-26
    • 2018-12-12
    相关资源
    最近更新 更多