【发布时间】:2015-11-20 16:40:07
【问题描述】:
我正在使用 apache spark 1.3.1 和 hadoop 2.6 库。我也在使用 s3a 协议。我的工作从 s3 存储桶读取数据,对其进行解析,然后将 parquet 文件写入另一个存储桶。它工作正常,除了作业在完成时挂起并且永远不会退出。关于导致这种情况的任何想法,是否有我需要关闭的资源?
代码很基础:
val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")
一切顺利完成,然后我的工作就挂了。
【问题讨论】:
-
我已尝试取消保留从记录中创建的数据框,并停止 SparkContext,但这没有帮助。
-
我也尝试了 s3n 协议,确实有效,但我在使用 s3n 时存在很多可靠性问题。
标签: amazon-s3 apache-spark apache-spark-sql