【发布时间】:2014-09-03 07:36:03
【问题描述】:
如何从 PySpark 中的 RDD 中删除行?特别是第一行,因为它往往包含我的数据集中的列名。通过仔细阅读 API,我似乎找不到一种简单的方法来做到这一点。当然我可以通过 Bash / HDFS 做到这一点,但我只想知道这是否可以在 PySpark 中完成。
【问题讨论】:
-
使用
filter过滤掉坏行 -
如果你只想删除第一行怎么办?并且为了论证,我们不能使用行向量 x 中的任何信息,即我们不能做
lambda x: (some condition using x)。 -
查看我的答案可能更接近您要找的内容
标签: python apache-spark pyspark