【发布时间】:2017-11-18 20:24:02
【问题描述】:
我有一个名为 df 的 pyspark 数据框。
ONE LINE EXAMPLE:
df.take(1)
[Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")]
我有一个假期清单:
holydays=[u'2016-12-25',u'2016-12-08'....]
如果“数据”在神圣日列表中,我想将 day_type 切换为“HOLIDAY”,否则我想保留 day_type 字段。
这是我的非工作暂定:
df=df.withColumn("day_type",when(col("data") in holydays, "HOLIDAY").otherwise(col("day_type")))
PySpark 不喜欢“在圣日”这个表达。 它返回此错误:
ValueError: Cannot convert column into bool: please use '&' for 'and', '|'
【问题讨论】:
标签: pyspark apache-spark-sql spark-dataframe pyspark-sql