火花读取文件时列中的多行值答案

【问题标题】：multiline values in a column while spark read file火花读取文件时列中的多行值
【发布时间】：2019-09-20 07:37:28
【问题描述】：

我有如下数据，我需要根据“,”将其分开

I/p file : 1,2,4,371003\,5371022\,87200000\,U

想要的结果应该是：

a  b  c   d   e                           f
1  2  3   4   371003,5371022,87000000     U

val df = spark.read.option("inferSchma","true").option("escape","\\").option("delimiter",",").csv("/user/txt.csv")

【问题讨论】：

您的问题/问题是什么？（您实际上没有在这里指定任何问题）。关于我认为您要问的问题：我的猜测是您必须将其作为文本文件阅读并自己拆分,。参见例如：stackoverflow.com/questions/39452692/… 和 stackoverflow.com/questions/53672800/…

标签： apache-spark rdd

【解决方案1】：

试试这个：

val df = spark.read.csv("/user/txt.csv")
df.show()

+---+---+---+-------+--------+---------+---+
|_c0|_c1|_c2|    _c3|     _c4|      _c5|_c6|
+---+---+---+-------+--------+---------+---+
|  1|  2|  4|371003\|5371022\|87200000\|  U|
+---+---+---+-------+--------+---------+---+



df.select(
    '_c0, '_c1, '_c2,
    regexp_replace(concat_ws(",", '_c3, '_c4, '_c5), "\\\\", ""),
    '_c6
  ).toDF("a","b","c","e","f").show(false)

+---+---+---+-----------------------+---+
|a  |b  |c  |e                      |f  |
+---+---+---+-----------------------+---+
|1  |2  |4  |371003,5371022,87200000|U  |
+---+---+---+-----------------------+---+

【讨论】：