【发布时间】:2016-09-20 02:02:37
【问题描述】:
我有一个像这样的 spark DataFrame:
timestamp userId
2016-07-26 12:05:00 a
2016-07-26 12:05:01 b
2016-07-26 12:05:02 c
2016-07-26 12:05:03 d
2016-07-26 12:05:04 e
2016-07-26 12:05:05 f
我想将相差 5 秒以内的行归为一组,例如:
timestamp userId group
2016-07-26 12:05:00 a 1
2016-07-26 12:05:01 b 1
2016-07-26 12:05:02 c 1
2016-07-26 12:05:03 d 1
2016-07-26 12:05:04 e 1
2016-07-26 12:05:05 f 2
有没有办法在不将 spark DataFrame 转换为 R dataframe 的情况下做到这一点?
【问题讨论】:
-
既然要在R中处理,就需要在R中使用合适的数据结构,不是吗?
-
你在使用
sparkR吗?哪个版本? -
@Sotos 是 1.6.2
-
您将需要使用 Window 函数,但这些函数仅在 Spark 2.0 for SparkR 中实现。
-
@mtoto 你can use window functions in 1.6 很好。但是你不能轻易地将这些应用到这些问题上以获得准确的解决方案和良好的性能。
标签: r apache-spark spark-dataframe sparkr