【发布时间】:2020-05-18 04:09:23
【问题描述】:
我想在 spark 中获取每个分区的第一行和最后一行(我正在使用 pyspark)。我该怎么做? 在我的代码中,我使用以下键列重新分区我的数据集:
mydf.repartition(keyColumn).sortWithinPartitions(sortKey)
有没有办法获取每个分区的第一行和最后一行? 谢谢
【问题讨论】:
-
不知道为什么我的问题被否决了。帖子有问题吗?如果您在投反对票时可以就您认为帖子的错误之处发表评论,那将非常有帮助
-
为什么要每个分区的第一行和最后一行?你可以使用foreachPartition,它会给你一个迭代器
-
你的意思可能是
mapPartitions@maximeGforeachPartition不允许你修改最终输出 -
OP没有说要修改输出
-
如何使用
foreachPartition提取第一个/最后一个?据我了解,问题是关于提取每个分区的第一个/最后一个项目,即通过 Spark API 提取 4 par -> 8 个项目,没有隐藏存储或任何 3rd 方库
标签: apache-spark pyspark pyspark-dataframes