【发布时间】:2018-10-25 18:28:32
【问题描述】:
我正在尝试读取以制表符分隔但无法读取所有记录的分隔文件。
这是我的输入记录:
head1 head2 head3
a b c
a2 a3 a4
a1 "b1 "c1
我的代码:
var inputDf = sparkSession.read
.option("delimiter","\t")
.option("header", "true")
// .option("inferSchema", "true")
.option("nullValue", "")
.option("escape","\"")
.option("multiLine", true)
.option("nullValue", null)
.option("nullValue", "NULL")
.schema(finalSchema)
.csv("file:///C:/Users/prhasija/Desktop/retriedAddresses_4.txt")
// .csv(inputPath)
.na.fill("")
// .repartition(4)
println(inputDf.count)
输出:
2 records
为什么它没有返回 3 作为计数?
【问题讨论】:
-
最后一行格式错误。
-
解决方法是什么。我必须用引号阅读这些数据
-
你的 finalSchema 是什么样的?
-
它是 structType(Queue[StructField]())。我保存为字符串的所有列
标签: scala apache-spark mapreduce apache-spark-sql spark-streaming