【问题标题】:Apache Spark hangs after writing parquet file to S3 bucket将镶木地板文件写入 S3 存储桶后,Apache Spark 挂起
【发布时间】:2015-11-20 16:40:07
【问题描述】:

我正在使用 apache spark 1.3.1 和 hadoop 2.6 库。我也在使用 s3a 协议。我的工作从 s3 存储桶读取数据,对其进行解析,然后将 parquet 文件写入另一个存储桶。它工作正常,除了作业在完成时挂起并且永远不会退出。关于导致这种情况的任何想法,是否有我需要关闭的资源?

代码很基础:

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切顺利完成,然后我的工作就挂了。

【问题讨论】:

  • 我已尝试取消保留从记录中创建的数据框,并停止 SparkContext,但这没有帮助。
  • 我也尝试了 s3n 协议,确实有效,但我在使用 s3n 时存在很多可靠性问题。

标签: amazon-s3 apache-spark apache-spark-sql


【解决方案1】:

所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-06-02
    • 2023-03-29
    • 2021-10-11
    • 2020-04-22
    • 1970-01-01
    • 2021-12-02
    • 2020-06-24
    • 2016-09-21
    相关资源
    最近更新 更多