【问题标题】:How to load and process multiple csv files from a DBFS directory with Spark如何使用 Spark 从 DBFS 目录加载和处理多个 csv 文件
【发布时间】:2019-07-23 12:16:44
【问题描述】:

我想对从 DBFS(Databricks 文件系统)读取的每个文件运行以下代码。我对文件夹中的所有文件进行了测试,但我想对文件夹中的每个文件进行类似的计算,一个一个:

// a-e are calculated fields
val df2=Seq(("total",a,b,c,d,e)).toDF("file","total","count1","count2","count3","count4")

//schema is now an empty dataframe
val final1 = schema.union(df2)

这可能吗?我想从 dbfs 读取它也应该与我现在做的不同:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("delimiter",",")
      .option("inferSchema", "true")
      .load("dbfs:/Reports/*.csv")
      .select("lot of ids")

非常感谢您的想法:)

【问题讨论】:

  • 嗨@Eva 你有多少这样的文件?
  • 其实这里有两个选项,要么按文件名分组,然后对每个文件执行逻辑。遍历您的目录,将文件加载到 Dataframe 中,执行逻辑,然后与其他 Dataframe 联合
  • @AlexandrosBiratsis 感谢您的 cmets,我不知道我有多少文件,它总是在变化,因为这个文件夹每周都会用新数据更新。我现在生成了一个函数,我尝试在每个文件上调用它,我明天将在这里分享代码。是的,最后我会尝试合并它...我在 foreach 和 for 语法方面遇到问题:D 我正在处理它 :)
  • 欢迎 Eva :) 祝你好运
  • 你好 Eva,请注意,随着项目的发展和代码的继续,你不能随意更改最初的问题。如果每个人都这样做,那么将充满个别项目,而不是具体的技术问题。我的回答是针对一个特定的问题,现在问题不同了,并且与第一个问题无关,因此最好创建一个带有新描述的新问题。谢谢:)

标签: scala csv apache-spark dataframe databricks


【解决方案1】:

如前所述,您在这里有 3 个选项。

在我的示例中,我使用了接下来的 3 个数据集:

+----+----+----+
|col1|col2|col3|
+----+----+----+
|1   |100 |200 |
|2   |300 |400 |
+----+----+----+

+----+----+----+
|col1|col2|col3|
+----+----+----+
|3   |60  |80  |
|4   |12  |100 |
|5   |20  |10  |
+----+----+----+

+----+----+----+
|col1|col2|col3|
+----+----+----+
|7   |20  |40  |
|8   |30  |40  |
+----+----+----+

您首先创建架构(显式定义架构而不是推断它更快):

import org.apache.spark.sql.types._

val df_schema =
  StructType(
    List(
        StructField("col1", IntegerType, true),
        StructField("col2", IntegerType, true),
        StructField("col3", IntegerType, true)))

选项 1:

一次加载所有 CSV:

val df1 = spark
      .read
      .option("header", "false")
      .option("delimiter", ",")
      .option("inferSchema", "false")
      .schema(df_schema)
      .csv("file:///C:/data/*.csv")

然后将您的逻辑应用于按文件名分组的整个数据集。

前提条件:你必须想办法将文件名附加到每个文件中

选项 2:

从目录加载 csv 文件。然后遍历文件并为每个 csv 创建一个数据框。在循环内部将您的逻辑应用于每个 csv。最后在循环结束时将结果附加(联合)到第二个数据帧中,该数据帧将存储您的累积结果。

注意:请注意,大量文件可能会导致非常大的 DAG 和随后的巨大执行计划,为了避免这种情况,您可以持久化当前结果或调用 collect。在下面的示例中,我假设将在每个 bufferSize 迭代中执行 persist 或 collect。您可以根据 csv 文件的数量调整甚至删除此逻辑。

这是第二个选项的示例代码:

import java.io.File
import org.apache.spark.sql.Row
import spark.implicits._

val dir = "C:\\data_csv\\"
val csvFiles = new File(dir).listFiles.filter(_.getName.endsWith(".csv"))

val bufferSize = 10
var indx = 0
//create an empty df which will hold the accumulated results
var bigDf = spark.createDataFrame(spark.sparkContext.emptyRDD[Row], df_schema)
csvFiles.foreach{ path => 
    var tmp_df = spark
                  .read
                  .option("header", "false")
                  .option("delimiter", ",")
                  .option("inferSchema", "false")
                  .schema(df_schema)
                  .csv(path.getPath)

    //execute your custom logic/calculations with tmp_df

    if((indx + 1) % bufferSize == 0){
        // If buffer size reached then
        // 1. call unionDf.persist() or unionDf.collect()
        // 2. in the case you use collect() load results into unionDf again 
    }

    bigDf = bigDf.union(tmp_df)
    indx = indx + 1
}
bigDf.show(false)

这应该输出:

+----+----+----+
|col1|col2|col3|
+----+----+----+
|1   |100 |200 |
|2   |300 |400 |
|3   |60  |80  |
|4   |12  |100 |
|5   |20  |10  |
|7   |20  |40  |
|8   |30  |40  |
+----+----+----+

选项 3:

最后一个选项是使用内置的spark.sparkContext.wholeTextFiles

这是将所有 csv 文件加载到 RDD 中的代码:

val data = spark.sparkContext.wholeTextFiles("file:///C:/data_csv/*.csv")
val df = spark.createDataFrame(data)

df.show(false)

还有输出:

+--------------------------+--------------------------+
|_1                        |_2                        |
+--------------------------+--------------------------+
|file:/C:/data_csv/csv1.csv|1,100,200                 |
|                          |2,300,400                 |
|file:/C:/data_csv/csv2.csv|3,60,80                   |
|                          |4,12,100                  |
|                          |5,20,10                   |
|file:/C:/data_csv/csv3.csv|7,20,40                   |
|                          |8,30,40                   |
+--------------------------+--------------------------+

spark.sparkContext.wholeTextFiles 将返回一个 key/value RDD,其中 key 是文件路径,value 是文件数据。

这需要额外的代码来提取 _2 的内容,即每个 csv 的内容。在我看来,这将包含有关程序性能和可维护性的开销,因此我会避免它。

如果您需要进一步说明,请告诉我

【讨论】:

  • 最后我做了一个函数,我在每个文件上调用,结果我写成附加的 csv。非常感谢你的努力!! :)
  • 嗨,Eva,太好了,我很高兴它帮助了你!
  • @AlexandrosBiratsis 。对于您建议的第二个选项。您告诉过,对于大量文件来破坏庞大的执行计划,我们可以调用persist() 或collect()。如果我调用persist(),那么它应该是内存的默认选项,或者它应该只是磁盘。我有大约 2500 个文件和类似的场景。
  • @NikunjKakadiya 默认缓存或持久化将使用 MEMORY_AND_DISK 保存数据。请查看下一个以获取更多详细信息stackoverflow.com/questions/30520428/…
【解决方案2】:

我正在补充@Alexandros Biratsis 提供的答案。 可以使用下面的第一种方法,方法是将文件名连接为同一数据框中的单独列,该数据框中包含来自多个文件的所有数据。

val df1 = spark  
      .read  
      .option("header", "false")  
      .option("delimiter", ",")  
      .option("inferSchema", "false")  
      .schema(df_schema)  
      .csv("file:///C:/data/*.csv")  
      .withColumn("FileName",input_file_name())

这里的input_file_name() 是一个将文件名添加到DataFrame 中的每一行的函数。这是 spark 的内置函数。
要使用此功能,您需要导入以下命名空间。
导入 org.apache.spark.sql.functions._

可以在https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/functions.html找到该函数的文档

我建议不要使用@Alexandros Biratsis 建议的第二种方法,即联合并保留临时数据帧,因为它适用于少量文件,但随着文件数量的增加,它变得太慢,有时它会变得超时,驱动程序意外关闭。

我要感谢 Alexandros 的回答,因为这给了我解决问题的方法。

【讨论】:

    猜你喜欢
    • 2017-03-18
    • 1970-01-01
    • 2016-10-23
    • 2020-07-30
    • 2019-09-07
    • 2021-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多