【发布时间】:2020-10-21 00:54:54
【问题描述】:
我正在尝试使用用 Scala 编写的 Spark 将 CSV 简单地写入 S3:
我注意到我的输出存储桶中有以下文件:
...PROCESSED/montfh-04.csv/part-00000-723a3d72-56f6-4e62-b627-9a181a820f6a-c000.csv.snappy
什么时候应该只是montfh-04.csv
代码:
val processedMetadataDf = spark.read.csv("s3://" + metadataPath + "/PROCESSED/" + "month-04" + ".csv")
val processCount = processedMetadataDf.count()
if (processCount == 0) {
// Initial frame is 0B -> Overwrite with path
val newDat = Seq("dummy-row-data")
val unknown_df = newDat.toDF()
unknown_df.write.mode("overwrite").option("header","false").csv("s3://" + metadataPath + "/PROCESSED/" + "montfh-04" + ".csv")
}
这里我注意到两件奇怪的事情:
- 它把它放在一个目录中
- 它通过快速压缩将奇怪的部分子路径添加到文件中
我要做的只是将具有该名称的平面 CSV 文件写入指定路径。我有哪些选择?
【问题讨论】:
标签: scala apache-spark