【发布时间】:2023-03-22 16:11:01
【问题描述】:
我有两个非常大的 csv 文件,我正在使用带有 R 的 spark。我的第一个文件是这样上传的:
data <- spark_read_csv(sc, "D:/my_file.csv")
使用第一个文件后,我有这些变量:
Name | Number
具有这些变量的第二个 csv 文件:
Name | Number | Surname
您还可以看到第二个文件比第一个文件多一个变量。使用 spark 加载时,我想忽略第二个文件的 Surname 列。如何合并这两个文件,使第二个成为第一个的连续体?
【问题讨论】:
标签: r apache-spark