【发布时间】:2017-07-25 05:42:57
【问题描述】:
我需要 pyspark 数据框主题方面的帮助。 我有一个说 1000+ 列和 100000+ 行的数据框。此外,如果存在 elif 条件,我还有 10000+,在每个 if else 条件下,很少有全局变量会增加一些值。 现在我的问题是如何仅在 pyspark 中实现这一点。 我阅读了有关过滤器以及根据条件返回行的函数的内容,我需要检查那些 10000+ if else 条件并执行一些操作。
任何帮助将不胜感激。
如果你能举一个小数据集的例子,那会很有帮助。
谢谢
【问题讨论】:
-
请提供您已经尝试过的内容的概述,以及您希望在某些玩具问题上实现的条件。
标签: apache-spark pyspark spark-dataframe bigdata