【发布时间】:2020-10-15 01:00:46
【问题描述】:
我有一个 DataFrame 列,其中包含一个包含一些空值的列表:
df.select('foo').show(10)
+----------+
|foo |
+----------+
|[,] |
|[bar, baz]|
|[,bar] |
+----------+
我想过滤掉所有空值,即它应该是这样的:
+----------+
|foo |
+----------+
|null |
|[bar, baz]|
|[bar] |
+----------+
我尝试使用array_remove,但无法排除空字符串。
【问题讨论】:
-
你可以使用UDF的
标签: apache-spark pyspark apache-spark-sql pyspark-dataframes