【问题标题】:R: combine two csv files with sparkR:将两个csv文件与火花结合起来
【发布时间】:2023-03-22 16:11:01
【问题描述】:

我有两个非常大的 csv 文件,我正在使用带有 R 的 spark。我的第一个文件是这样上传的:

data <- spark_read_csv(sc, "D:/my_file.csv")

使用第一个文件后,我有这些变量:

Name | Number

具有这些变量的第二个 csv 文件:

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。使用 spark 加载时,我想忽略第二个文件的 Surname 列。如何合并这两个文件,使第二个成为第一个的连续体?

【问题讨论】:

    标签: r apache-spark


    【解决方案1】:

    据我所知,您想删除第二个数据框中的 Surname 列并与第一个合并。

    spark_read_csv 似乎来自我从未使用过的sparklyr,但在普通的SparkR 中,我们可以读取如下数据。我很确定其余代码将以相同的方式工作,无论数据读取方式如何。

    > d1 = read.df(".../f1.csv", "csv", header="true")
    > head(d1)
      Name Number
    1    x      7
    2    y      8
    
    > d2 = read.df(".../f2.csv", "csv", header="true")
    > head(d2)
      Name Number Surname
    1    z      5      zz
    2    w      6      ww
    

    那么,就很简单了:

    > trimmed_d2 = select(d2, "Name", "Number")
    > all_the_data = union(d1, trimmed_d2)
    > head(all_the_data)
      Name Number
    1    x      7
    2    y      8
    3    z      5
    4    w      6
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-09-28
      • 2017-02-03
      • 2022-11-02
      • 1970-01-01
      • 2023-04-06
      • 2018-09-21
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多