【发布时间】:2018-05-22 15:26:32
【问题描述】:
Scala 2.12 和 Spark 2.2.1 在这里。我使用以下代码将DataFrame的内容写入S3:
myDF.write.mode(SaveMode.Overwrite)
.parquet("s3n://com.example.mybucket/mydata.parquet")
当我在 S3 上转到 com.example.mybucket 时,我实际上看到了一个名为“mydata.parquet”的目录,以及一个名为“mydata.parquet_$folder$”!!!如果我进入mydata.parquet 目录,我会在它下面看到两个文件:
-
_SUCCESS;和 part-<big-UUID>.snappy.parquet
而我只是希望看到一个名为 mydata.parquet 的文件存在于存储桶的根目录中。
这里有什么问题吗(如果有,是什么?!?)还是 Parquet 文件格式会出现这种情况?如果符合预期,那是我应该读取的 实际 Parquet 文件:
-
mydata.parquet目录?;或 -
mydata.parquet_$folder$文件?;或 -
mydata.parquet/part-<big-UUID>.snappy.parquet?
谢谢!
【问题讨论】:
标签: apache-spark amazon-s3 parquet