【发布时间】:2021-07-21 01:46:14
【问题描述】:
我有一个关于 Pyspark 地图的问题。
例如,我有如下数据:
data=[(1,1,1,10),(1,1,2,20),(2,1,3,15),(2,1,1,47),(3,0,2,28),(3,0,3,17)]
df=spark.createDataFrame(data).toDF("ID","Target","features","value1")
df.show()
+---+------+--------+------+
| ID|Target|features|value1|
+---+------+--------+------+
| 1| 1| 1| 10|
| 1| 1| 2| 20|
| 2| 1| 3| 15|
| 2| 0| 1| 47|
| 3| 0| 2| 28|
| 3| 0| 3| 17|
+---+------+--------+------+
我想将数据转换为:按 ID 分组:
1 1:10 2:20
1 2:15 1:47
0 2:28 3:17
所以每一行代表ID,第一个值代表Target,features:value1
您能否提供任何示例代码或建议?
非常感谢!!!!!!!!!!!!
【问题讨论】:
标签: dataframe pyspark format bigdata rdd