【发布时间】:2016-01-07 23:11:35
【问题描述】:
我在集群中使用 PySpark (Spark 1.4.1)。我有两个 DataFrame,每个 DataFrame 包含相同的键值,但其他字段的数据不同。
我使用密钥分别对每个 DataFrame 进行分区,并将 parquet 文件写入 HDFS。然后我将 parquet 文件作为新的 DataFrame 读回内存。如果我加入两个 DataFrame,是否会在同一个工作人员上进行加入处理?
例如:
dfA包含 {userid,firstname,lastname} 被userid分区dfB包含由userid分区的{userid,activity,job,hobby}
dfC = dfA.join(dfB, dfA.userid==dfB.userid)
dfC 是否已被userid 分区?
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql partitioning parquet