【发布时间】:2019-09-25 14:00:05
【问题描述】:
我有一个规则手册 csv,数据如下所示:
operator|lastname|operator|firstname|val
equals | ABC |contains| XYZ | 2
equals | QWE |contains| rty | 3
所以如果 lastname 等于 ABC 和 firstname 像 XYZ 那么 val 将是 2 ,就像那样。此文件可以更改或修改,因此条件将是动态的。将来甚至可以添加行。
现在,我的 pyspark 数据框是:
lastname| firstname| service
ABC | XYZNMO | something
QUE | rtysdf | something
我需要将该 csv 文件中的规则应用于此数据框并添加 val 列。所以我想要的输出数据框将是:
lastname| firstname| service | val
ABC | XYZNMO | something| 2
QUE | rtysdf | something| 3
请记住,规则手册是动态的,可以随时添加、删除或修改规则。甚至可以修改规则手册中的运算符。 提前致谢
【问题讨论】:
-
嗨,有什么理由将规则保存到 df 中?例如,是否有任何动态机制生成这些规则?或者您也可以将它们存储到一个文件中?
标签: pyspark apache-spark-sql pyspark-sql aws-glue pyspark-dataframes