【发布时间】:2015-12-16 22:06:34
【问题描述】:
在 SparkR 中,我有一个 DataFrame data。它包含time、game 和id。
head(data)
然后给出 ID = 1 4 1 1 215 985 ..., game = 1 5 1 10 和时间 2012-2-1, 2013-9-9, ...
现在game 包含一个游戏类型,它是从 1 到 10 的数字。
对于给定的游戏类型,我想找到最短时间,即第一次玩这个游戏。对于游戏类型 1,我这样做
data1 <- filter(data, data$game == 1)
这个新数据包含游戏类型 1 的所有数据。要找到我这样做的最短时间
g <- groupBy(data1, game$time)
first(arrange(g, desc(g$time)))
但这不能在 sparkR 中运行。它说“S4 类型的对象不可子集”。
游戏 1 已在 2012-01-02、2013-05-04、2011-01-04、... 我想找到最短时间。
【问题讨论】:
-
你为什么首先按时间分组?您能否提供示例输入和预期输出?
-
我举了一个例子。我按时间分组,因为我想对它使用 agg-function。
-
使用聚合功能不需要
groupBy。
标签: r apache-spark sparkr