【发布时间】:2019-05-21 22:39:32
【问题描述】:
我有一个数据框 (df),在数据框内我有一列 user_id
df = sc.parallelize([(1, "not_set"),
(2, "user_001"),
(3, "user_002"),
(4, "n/a"),
(5, "N/A"),
(6, "userid_not_set"),
(7, "user_003"),
(8, "user_004")]).toDF(["key", "user_id"])
df:
+---+--------------+
|key| user_id|
+---+--------------+
| 1| not_set|
| 2| user_003|
| 3| user_004|
| 4| n/a|
| 5| N/A|
| 6|userid_not_set|
| 7| user_003|
| 8| user_004|
+---+--------------+
我想用 null 替换以下值:not_set、n/a、N/A 和 userid_not_set。
如果我可以将任何新值添加到列表中并且可以更改它们,那就太好了。
我目前在 spark.sql 中使用 CASE 语句来执行此操作,并希望将其更改为 pyspark。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql