【发布时间】:2019-10-02 13:37:51
【问题描述】:
我正在使用 sparklyr 库与“spark”进行交互。有一些函数可以将数据框放入 spark 上下文中。此类函数为“dplyr::copy_to”和“sparklyr::sdf_copy_to”。有什么区别以及何时建议使用其中一种而不是另一种?
【问题讨论】:
-
sparklyrone 是为 spark 数据帧实现的(遵循分布式环境中的 RDD 概念),而dplyr适用于 R 数据帧、小标题等......这就是你在问?我不太确定 -
这回答了我问题的第一部分第二部分是:它们的表现是否相同?如果“是”,在什么情况下使用一种而不是另一种更好?
-
你不能使用其中一个或另一个。您不能在 spark 环境中使用
dplyr::copy_to,除非您将数据帧从 RDD 收集到 R 数据帧。反之亦然sparklyr -
那么如果有两个dataframe,我想复制到spark环境,那它们之间绝对没有区别?我期望的东西是:sparklyr 版本更有效,或者以这种方式......
-
如果您的数据框足够小,可以在本地处理(或不分发),那么
dplyr会更有效率。 Spark 的问题在于,如果您的数据集足够大,可以在分布式环境中进行分析,那么它的效率会更高。因此,如果您尝试对小型数据集进行任何类型的分析,那么在本地使用dplyr或任何其他 R 按照惯例在本地进行分析会更有效