【发布时间】:2019-07-05 16:03:22
【问题描述】:
我想根据两个键将 pyspark 数据帧中的元组数据转换为行。给定的是原始数据和预期输出。
架构:
root
|-- key_1: string (nullable = true)
|-- key_2: string (nullable = true)
|-- prod: string (nullable = true)
原始数据:
key_1|key_2|prod
cust1|order1|(p1,p2,)
cust2|order2|(p1,p2,p3)
cust3|order3|(p1,)
预期输出:
key_1|key_2|prod|category
cust1|order1|p1
cust1|order1|p2
cust1|order1|
cust2|order2|p1
cust2|order2|p2
cust2|order2|p3
cust3|order3|p1
cust3|order3|
【问题讨论】:
-
请将
df.printSchema()的输出添加到您的问题中。 -
我已经编辑了我的问题并现在添加了架构
标签: apache-spark dataframe pyspark apache-spark-sql tuples