【发布时间】:2016-11-11 20:13:07
【问题描述】:
我有一个分区数据框,比如 df1。从 df1 我将创建 df2 和 df3..
df1 = df1.withColumn("key", concat("col1", "col2", "col3"))
df1 =df1.repartition(400, "key")
df2 = df.groupBy("col1", "col2").agg(sum(colx))
df3 = df1.join(df2, ["col1", "col2"])
我想知道 df3 是否会保留与 df1 相同的分区?还是我需要重新分区 df3?。
【问题讨论】: