【发布时间】:2020-07-05 13:54:16
【问题描述】:
我有一个 pyspark 数据框,如下面的输入数据。我想在空白处拆分 productname 列中的值。然后我想用前 3 个值创建新列。我在下面有示例输入和输出数据。有人可以建议如何使用 pyspark 执行此操作吗?
输入数据:
+------+-------------------+
|id |productname |
+------+-------------------+
|235832|EXTREME BERRY Sweet|
|419736|BLUE CHASER SAUCE |
|124513|LAAVA C2L5 |
+------+-------------------+
输出:
+------+-------------------+-------------+-------------+-------------+
|id |productname |product1 |product2 |product3 |
+------+-------------------+-------------+-------------+-------------+
|235832|EXTREME BERRY Sweet|EXTREME |BERRY |Sweet |
|419736|BLUE CHASER SAUCE |BLUE |CHASER |SAUCE |
|124513|LAAVA C2L5 |LAAVA |C2L5 | |
+------+-------------------+-------------+-------------+-------------+
【问题讨论】:
-
我们可以假设您只需要多三列吗?(1,2,3) 或者根据产品名称可以有更多吗?
标签: python pyspark pyspark-sql pyspark-dataframes