将镶木地板文件写入 S3 存储桶后，Apache Spark 挂起答案

【问题标题】：Apache Spark hangs after writing parquet file to S3 bucket将镶木地板文件写入 S3 存储桶后，Apache Spark 挂起
【发布时间】：2015-11-20 16:40:07
【问题描述】：

我正在使用 apache spark 1.3.1 和 hadoop 2.6 库。我也在使用 s3a 协议。我的工作从 s3 存储桶读取数据，对其进行解析，然后将 parquet 文件写入另一个存储桶。它工作正常，除了作业在完成时挂起并且永远不会退出。关于导致这种情况的任何想法，是否有我需要关闭的资源？

代码很基础：

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切顺利完成，然后我的工作就挂了。

【问题讨论】：

我已尝试取消保留从记录中创建的数据框，并停止 SparkContext，但这没有帮助。
我也尝试了 s3n 协议，确实有效，但我在使用 s3n 时存在很多可靠性问题。

标签： amazon-s3 apache-spark apache-spark-sql

【解决方案1】：

所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题

【讨论】：