【发布时间】:2025-11-23 22:30:01
【问题描述】:
我从数据框的列中得到一个列表:
list_recs = [row[0] for row in df_recs.select("name").collect()]
列表如下所示:
Out[243]: ['COL-4560', 'D65-2242', 'D18-4751', 'D68-3303']
我想将它转换为一个新的数据帧,该值在一个不同的列中。我试过这样做:
from pyspark.sql import Row
rdd = sc.parallelize(list_recs)
recs = rdd.map(lambda x: Row(SKU=str(x[0]), REC_01=str(x[1]), REC_02=str(x[2]), REC_03=str(x[3])))#, REC_04=str(x[4]), REC_0=str(x[5])))
schemaRecs = sqlContext.createDataFrame(recs)
但我得到的结果是:
+---+------+------+------+
|SKU|REC_01|REC_02|REC_03|
+---+------+------+------+
| C| O| L| -|
| D| 6| 5| -|
| D| 1| 8| -|
| D| 6| 8| -|
+---+------+------+------+
我想要什么:
+----------+-------------+-------------+-------------+
|SKU |REC_01 |REC_02 |REC_03 |
+----------+-------------+-------------+-------------+
| COL-4560| D65-2242| D18-4751| D68-3303|
+----------+-------------+-------------+-------------+
我也尝试过spark.createDataFrame(lista_recs, StringType()),但所有项目都在同一列中。
提前谢谢你。
【问题讨论】:
标签: apache-spark pyspark rdd