【问题标题】:How to use dplyr in sparklyr如何在 sparklyr 中使用 dplyr
【发布时间】:2019-04-03 02:42:31
【问题描述】:

您好,我刚开始使用 Sparklyr,在尝试使用 dplyr 处理一些数据时遇到错误。

library(sparklyr)

sc <- spark_connect(master = "local")

spark_read_csv(sc, "df2_tbl", 
"C:/Users/...csv")

 spark_read_csv(sc, "df_n2_tbl", 
"C:/Users/...csv")

我在“环境”和“历史”旁边的“连接”选项卡以及 Spark UI 上看到对象“df2_tbl”和“df2_n2_tbl”,但是当我运行以下命令时

match_cat <- df_n2_tbl %>% 
         filter(var1 %in% df2_tbl) %>% 
         collect()

我得到错误 -

"Error in eval(lhs, parent, parent) : object 'df_n2_tbl' not found"

【问题讨论】:

    标签: r apache-spark dplyr sparklyr


    【解决方案1】:

    我需要将 spark_read_csv() 函数的结果分配给一个对象。

    library(sparklyr)
    
    sc <- spark_connect(master = "local")
    
    df1 <- spark_read_csv(sc, "df2_tbl", 
    "C:/Users/...csv")
    
    df2 <- spark_read_csv(sc, "df_n2_tbl", 
    "C:/Users/...csv")
    

    【讨论】:

      猜你喜欢
      • 2018-08-21
      • 1970-01-01
      • 2019-01-15
      • 2017-04-27
      • 1970-01-01
      • 2018-08-01
      • 2018-01-20
      • 2018-09-30
      相关资源
      最近更新 更多