【发布时间】:2020-03-06 17:15:25
【问题描述】:
我的文件格式如下,
0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20
0, Beta, -3.8, 3, 2001-02-01 08:15:00, 6, 21
1, Gamma,-3.7, 8, 2001-02-01 08:30:00, 7, 22
0, Alpha,-3.5, 4, 2001-02-01 08:45:00, 8, 23
0, Alpha,-3.9, 4, 2001-02-01 09:00:00, 8, 27
0, Gamma,-3.5, 5, 2001-02-01 09:15:00, 6, 21
等等……
例如,对于给定的Alpha/Beta/Gamma,我对sum of 5th element 中的sum of 5th element 感兴趣,时间间隔在08:00:00 to 09:00:00 之间。我希望仅使用基于rdd 的操作between 08:00:00 to 09:00:00 获得以下结果。
Alpha 21
Beta 6
Gamma 7
这就是我目前所做的;
rdd = sc.textFile(myDataset)
newrdd = rdd.map(myFun) # myFun process each line
filterrdd = newrdd.filter(lambda e : e[4].startswith('2001-02-01') )
但我不知道如何继续。或者至少看不到仅使用基于rdd 的操作来解决它的简单方法。
【问题讨论】:
标签: python python-3.x pyspark bigdata rdd