【发布时间】:2020-07-27 22:30:39
【问题描述】:
我有一个数据集,其中包含主文件夹内的多个文件夹,每个文件夹包含多个 CSV 文件。每个 CSV 文件都有名为 X、Y 和 Z 的三列。我想创建一个数据框,以便数据框的前三列是三个 X、Y、Z。我想要另外两列,这样第四列包含从中读取 CSV 文件的文件夹的名称。第五列包含 CSV 文件的名称。如何在 Scala 和 Spark 中创建此数据框?
【问题讨论】:
-
你尝试了什么?如何从 CSV 加载在 Spark 文档中。重新整理文件名列,
.withColumn("filename", input_file_name)是要走的路。如何从中取出目录在 Scala 中是显而易见的。非常好的 Spark 文档中解释了所有内容。或者,您也可以使用wholeTextFiles,然后手动创建数据框
标签: scala apache-spark