【发布时间】:2021-08-28 17:38:46
【问题描述】:
我有以下数据框
+---+-----+-------+---+
| id|state|country|zip|
+---+-----+-------+---+
| 1| AAA | USA|123|
| 2| XXX | CHN|234|
| 3| AAA | USA|123|
| 4| PPP | USA|222|
| 5| PPP | USA|222|
| 5| XXX | CHN|234|
+---+-----+-------+---+
我想创建一个平面数据框,其中包含用于计算每列中每个不同值的数组,如下所示:
+-------------------------+--------------------+------------------------+
|state |country |zip |
+-------------------------+--------------------+------------------------+
|[[AAA, 2],[PPP,2][XXX,2]]|[[USA, 4],[CHN,123]]|[123, 2],[234,2][222,2]]|
+-------------------------+--------------------+------------------------+
原始表有 600 多个列,但我的目标是对总共仅包含少于 100 个唯一值的列执行此操作。
【问题讨论】:
标签: python apache-spark pyspark