【发布时间】:2019-09-08 23:51:30
【问题描述】:
将数据复制到 Redshift 时出现错误。查看stl_load_errors 表后,似乎原因是Delimiter not found。
我在数据框列之间使用组分隔符并将数据保存为文本文件:
val columns: Array[Column] = salesDF.columns.map(col)
val dataFrame = salesDF.select(concat_ws(String.valueOf(29.toChar), columns: _*)).write.text(outputLocation)
文件中的结果数据如下所示:
在与成功加载到 Redshift 的文件中的数据进行比较后,我怀疑问题是最后没有分隔符。
但是分隔符已经传递给concat_ws。而且我不太明白在保存上述数据时如何实现这一点?换句话说,我怎样才能在每一行的末尾添加相同的分隔符?
【问题讨论】:
-
你试过
df.write.option("sep","YOUR_SEPARATOR")吗?
标签: scala apache-spark dataframe apache-spark-sql amazon-redshift