【发布时间】:2017-03-17 16:47:09
【问题描述】:
我正在写这段代码
val inputData = spark.read.parquet(inputFile)
spark.conf.set("spark.sql.shuffle.partitions",6)
val outputData = inputData.sort($"colname")
outputData.write.parquet(outputFile) //write on HDFS
如果我想从 HDFS 读取文件“outputFile”的内容,我没有找到相同数量的分区并且数据没有排序。这是正常的吗?
我使用的是 Spark 2.0
【问题讨论】:
-
如何查看分区数和读取文件内容?你是用
show()还是take()来显示内容?
标签: apache-spark hdfs parquet