R：将两个csv文件与火花结合起来

【问题标题】：R: combine two csv files with sparkR：将两个csv文件与火花结合起来
【发布时间】：2023-03-22 16:11:01
【问题描述】：

我有两个非常大的 csv 文件，我正在使用带有 R 的 spark。我的第一个文件是这样上传的：

data <- spark_read_csv(sc, "D:/my_file.csv")

使用第一个文件后，我有这些变量：

Name | Number

具有这些变量的第二个 csv 文件：

Name | Number | Surname

您还可以看到第二个文件比第一个文件多一个变量。使用 spark 加载时，我想忽略第二个文件的 Surname 列。如何合并这两个文件，使第二个成为第一个的连续体？

【问题讨论】：

标签： r apache-spark

【解决方案1】：

据我所知，您想删除第二个数据框中的 Surname 列并与第一个合并。

spark_read_csv 似乎来自我从未使用过的sparklyr，但在普通的SparkR 中，我们可以读取如下数据。我很确定其余代码将以相同的方式工作，无论数据读取方式如何。

> d1 = read.df(".../f1.csv", "csv", header="true")
> head(d1)
  Name Number
1    x      7
2    y      8

> d2 = read.df(".../f2.csv", "csv", header="true")
> head(d2)
  Name Number Surname
1    z      5      zz
2    w      6      ww

那么，就很简单了：

> trimmed_d2 = select(d2, "Name", "Number")
> all_the_data = union(d1, trimmed_d2)
> head(all_the_data)
  Name Number
1    x      7
2    y      8
3    z      5
4    w      6

【讨论】：