【发布时间】:2020-07-10 01:31:59
【问题描述】:
我将数据框保存为镶木地板格式
df.write.parquet('/my/path')
查看HDFS时,可以看到parquet目录/my/path下有10个part-xxx.snappy.parquet文件
我的问题是:一个 part-xxx.snappy.parquet 文件是否对应于我的数据框的一个分区?
【问题讨论】:
-
我不确定这个问题是否可能重复,如果已经有类似问题,请告诉我
标签: apache-spark pyspark apache-spark-sql parquet partition