【发布时间】:2021-06-27 16:18:26
【问题描述】:
类似的问题被问了好几次。例如这里:How to automatically drop constant columns in pyspark?
但我发现,没有一个答案可以解决countDistinct() 不将空值视为不同值的问题。因此,只有两个结果为 null 和一个非 null 值的列也将被删除。
一个丑陋的解决方案是将 spark 数据框中的所有空值替换为您确定在数据框中其他地方不存在的东西。但就像我说的那样,那真的很难看。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql