【问题标题】:Process large text file using Zeppelin and Spark使用 Zeppelin 和 Spark 处理大型文本文件
【发布时间】:2017-03-04 21:40:20
【问题描述】:

我正在尝试使用 Zeppelin (scala) 分析(实际可视化)来自大型文本文件(超过 50 GB)的一些数据。来自网络的示例使用具有已知标题和每列数据类型的 csv 文件。就我而言,我有带有“”分隔符的纯数据行。如何像下面的代码一样将我的数据放入 DataFrame 中?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

附:我想要列“1”、“2”的数据框... 谢谢

【问题讨论】:

    标签: scala apache-spark apache-zeppelin bigdata


    【解决方案1】:

    你可以使用 csv:

    spark.read.option("delimiter", ";").csv(inputPath)
    

    【讨论】:

      猜你喜欢
      • 2016-09-02
      • 1970-01-01
      • 2017-04-24
      • 1970-01-01
      • 1970-01-01
      • 2018-09-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多