【发布时间】:2017-03-04 21:40:20
【问题描述】:
我正在尝试使用 Zeppelin (scala) 分析(实际可视化)来自大型文本文件(超过 50 GB)的一些数据。来自网络的示例使用具有已知标题和每列数据类型的 csv 文件。就我而言,我有带有“”分隔符的纯数据行。如何像下面的代码一样将我的数据放入 DataFrame 中?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
附:我想要列“1”、“2”的数据框... 谢谢
【问题讨论】:
标签: scala apache-spark apache-zeppelin bigdata