【发布时间】:2020-10-16 13:55:20
【问题描述】:
我在 pyspark 中制作了一个数据框-
df = spark.createDataFrame([
("S1", "S1_P1", "i1"),
("S1", "S1_P2", "i2"),
("S1", "S1_P3", "i3"),
("S2", "S2_P1", "i4"),
("S3", "S3_P1", "i5"),
("S3", "S3_P2", "i6"),
("S4", "S4_P1", "i7")
],["State", "Person", "Item"])
它看起来像这样-
+-----+------+----+
|State|Person|Item|
+-----+------+----+
| S1| S1_P1| i1|
| S1| S1_P2| i2|
| S1| S1_P3| i3|
| S2| S2_P1| i4|
| S3| S3_P1| i5|
| S3| S3_P2| i6|
| S4| S4_P1| i7|
+-----+------+----+
现在我想将它按“状态”分组,将前两组放入一个新数据帧 (df1) 中,将其余所有组放入另一个新数据帧 (df2) 中,这样,
df1(前 2 组)看起来像-
+-----+------+----+
|State|Person|Item|
+-----+------+----+
| S1| S1_P1| i1|
| S1| S1_P2| i2|
| S1| S1_P3| i3|
| S2| S2_P1| i4|
+-----+------+----+
和 df2(与所有剩余的组)看起来像-
+-----+------+----+
|State|Person|Item|
+-----+------+----+
| S3| S3_P1| i5|
| S3| S3_P2| i6|
| S4| S4_P1| i7|
+-----+------+----+
我如何实现这一目标? 在此先感谢:)
【问题讨论】:
标签: dataframe apache-spark pyspark pyspark-dataframes