【发布时间】:2020-02-03 01:30:01
【问题描述】:
以下是一些文件夹,它们可能会随着时间不断更新。他们有多个 .parquet 文件。如何在 scala 的 Spark 数据框中读取它们?
- "id=200393/date=2019-03-25"
- "id=200393/date=2019-03-26"
- "id=200393/date=2019-03-27"
- "id=200393/date=2019-03-28"
- “id=200393/date=2019-03-29”等等...
注意:- 可能有 100 个日期文件夹,我只需要选择特定的(比如说 25,26 和 28)
还有比下面更好的方法吗?
import org.apache.spark._
import org.apache.spark.SparkContext._
import org.apache.spark.sql._
val spark = SparkSession.builder.appName("ScalaCodeTest").master("yarn").getOrCreate()
val parquetFiles = List("id=200393/date=2019-03-25", "id=200393/date=2019-03-26", "id=200393/date=2019-03-28")
spark.read.format("parquet").load(parquetFiles: _*)
上面的代码可以运行,但我想做下面的事情-
val parquetFiles = List()
parquetFiles(0) = "id=200393/date=2019-03-25"
parquetFiles(1) = "id=200393/date=2019-03-26"
parquetFiles(2) = "id=200393/date=2019-03-28"
spark.read.format("parquet").load(parquetFiles: _*)
【问题讨论】:
标签: scala list apache-spark apache-spark-sql parquet