【问题标题】:Converting Dataset[Array[String]] to Dataset[MyCaseClass]将 Dataset[Array[String]] 转换为 Dataset[MyCaseClass]
【发布时间】:2017-08-27 16:31:52
【问题描述】:

我正在使用如下的 csv 文件

"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""

由于额外的引号,spark.read.csv 没有给出干净的列。 所以我想到了使用 spark.read.textFile 来提供 Dataset [String]。我使用下面的代码删除引号并拆分它们。

case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails

有没有办法实现这种数据集转换或更好的方法来拆分成多列? 目前我正在使用 RDD 来完成工作,但想知道 Dataset/Dataframe 的工作方式。

【问题讨论】:

    标签: scala csv apache-spark spark-dataframe apache-spark-dataset


    【解决方案1】:

    你可以从每条分割线构造一个MyCaseClass的记录,这样你就有RDD[MyCaseClass],然后你可以直接把它转换成数据框:

    val cleanDS = inputDS.map(line => {
      val fields = line.replaceAll("\"", "").split(";")
      MyCaseClass(fields(0), fields(1), fields(2))
    })
    
    cleanDS
    // res37: org.apache.spark.sql.Dataset[MyCaseClass] = [age: string, job: string ... 1 more field]
    
    cleanDS.toDF.show
    +---+----------+-------+
    |age|       job|marital|
    
    +---+----------+-------+
    |age|       job|marital|
    | 58|management|married|
    | 44|technician| single|
    +---+----------+-------+
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-29
      • 2010-12-22
      • 2021-04-13
      • 2017-07-16
      • 2020-10-15
      • 2015-07-20
      相关资源
      最近更新 更多