【发布时间】:2021-11-26 14:00:45
【问题描述】:
我有一个标有“input”的文件夹,其中包含多个 CSV 文件。它们都有相同的列名,但每个 CSV 文件中的数据不同。
如何使用 Spark 和 Java 转到标有“输入”的文件夹,读取该文件夹中的所有 CSV 文件,并将这些 CSV 文件合并到一个文件中。
文件夹中的文件可能会改变,例如可能有 4 个 CSV 文件,而另一天有 6 个,依此类推。
Dataset<Row> df = (
spark.read()
.format("com.databricks.spark.csv")
.option("header", "true")
.load("/Users/input/*.csv")
);
但是,我没有得到输出,Spark 只是关闭了。
我不想列出文件夹中的所有 CSV 文件,我希望代码获取该文件夹中存在的任何 CSV 文件并合并。这可能吗?
从那里我可以使用那个 CSV 文件转换成数据框。
【问题讨论】:
-
@philantrovert 我确实看到并尝试了一些,但我没有得到任何输出。你能看出什么不对吗?
-
您使用的是哪个版本的 Spark?
标签: java dataframe csv apache-spark