【发布时间】:2021-04-08 23:50:31
【问题描述】:
我有一个 pyspark 数据框
import pandas as pd
foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})
我想过滤掉'bad' 在list 的col 中的所有行
我尝试先创建一个二进制列,然后过滤这个:
from pyspark.sql import functions as f
foo = foo.withColumn('at_least_one_bad', f.when(f.col("col").array_contains("bad"),f.lit(1)).otherwise(f.lit(0)))
但我得到一个错误
TypeError: 'Column' 对象不可调用
有什么想法吗?
【问题讨论】:
标签: python apache-spark pyspark apache-spark-sql