【问题标题】:how to convert columns to rows in pyspark?如何在pyspark中将列转换为行?
【发布时间】:2021-12-06 23:16:22
【问题描述】:

我有一个包含多列的数据框,我需要将它放在一个列中,我怎样才能在不失去 pyspark 并行能力的情况下在性能上做到这一点?有人可以帮我吗?

USER|ID_1   |ID_2   |ID_3   |ID_4   |Name1|Name2|Name3|Name4

1234|1234500|null   |null   |null   |text |null |null |null   
1234|1234500|null   |null   |null   |text |null |null |null   
1234|null   |null   |1111500|null   |null |null |text |null   
1234|null   |null   |1111500|null   |null |null |text |null   
1234|null   |1111222|null   |null   |null |text |null |null   
1234|null   |1111222|null   |null   |null |text |null |null   
1234|null   |null   |null   |1111333|null |null |null |text   
1234|null   |null   |null   |1111333|null |null |null |text

预期输出:

USER|ID     |Name
 
1234|1234500|text
 
1234|1234500|text 

1234|1111500|text
   
1234|1111500|text |   
1234|1111222|text |   
1234|1111222|text |   
1234|1111333|text |   
1234|1111333|text | 

【问题讨论】:

    标签: python pyspark apache-spark-sql


    【解决方案1】:

    试试coalesce(col1,col2,col3..coln)

    Example:

    df.withColumn("id",coalesce(col("ID_1"),col("ID_2"),col("ID_3"),col("ID_4"))).\
    withColumn("Name",coalesce(col("Name1"),col("Name2"),col("Name3"),col("Name4"))).\
    show()
    

    【讨论】:

      猜你喜欢
      • 2021-12-30
      • 1970-01-01
      • 1970-01-01
      • 2020-12-06
      • 1970-01-01
      • 1970-01-01
      • 2018-07-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多