【发布时间】:2018-04-22 10:58:15
【问题描述】:
情况
我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它真的很快。现在,我正在一个 azure 集群上研究 sparkR,如果我可以在我的 spark 数据帧上使用 data.table 并且它是否比 sql 快,我想现在这样做?
【问题讨论】:
-
Rstudio 有一个
sparklyr包,它允许您使用带有dplyr的 spark 数据框。 -
是的,@DavidArenburg,但是可以使用 data.table 包及其习惯用法来分析 spark 数据帧,还是必须使用 dplyr?
标签: r apache-spark data.table cluster-computing sparkr