【发布时间】:2021-10-07 21:32:47
【问题描述】:
类似于我在here 发布的关于使用 DF 的问题,我如何检索每个序列中的第一个元素,但在这种情况下使用 RDD?我想将每个项目与前一个项目进行比较。在序列后面重复的项目是可以接受的,即(67,375, 14:20:14) 可能会出现在 RDD 的后面,应该保留。
输入
(67, 312, 12:09:00)
(67, 375, 12:23:00)
(67, 375, 12:25:00)
(67, 650, 12:26:00)
(75, 650, 12:27:00)
(75, 650, 12:29:00)
(75, 800, 12:30:00)
(67, 375, 14:20:14)
输出
(67, 312, 12:09:00)
(67, 375, 12:23:00)
(67, 650, 12:26:00)
(75, 650, 12:27:00)
(75, 800, 12:30:00)
(67, 375, 14:20:14)
【问题讨论】:
标签: pyspark comparison rdd