使用 Zeppelin 和 Spark 处理大型文本文件答案

【问题标题】：Process large text file using Zeppelin and Spark使用 Zeppelin 和 Spark 处理大型文本文件
【发布时间】：2017-03-04 21:40:20
【问题描述】：

我正在尝试使用 Zeppelin (scala) 分析（实际可视化）来自大型文本文件（超过 50 GB）的一些数据。来自网络的示例使用具有已知标题和每列数据类型的 csv 文件。就我而言，我有带有“”分隔符的纯数据行。如何像下面的代码一样将我的数据放入 DataFrame 中？：

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

附：我想要列“1”、“2”的数据框... 谢谢

【问题讨论】：

标签： scala apache-spark apache-zeppelin bigdata

【解决方案1】：

你可以使用 csv：

spark.read.option("delimiter", ";").csv(inputPath)

【讨论】：