【发布时间】:2022-01-19 19:17:20
【问题描述】:
我的数据中有“(单引号),即使我使用了分隔符值,所有对应的列值也合并为一列。在我的情况下是 '|'是我的分隔符。
实际数据:
a|"b|c|d|
预期输出:
a|"b|c|d
实际输出:
a|"b**|c|d|**null|null| (这里的第 3 列和第 4 列作为单列出现,代替实际的第 3 列和第 4 列。获取值为 null)
我尝试了以下方法:
方法一:
df=spark.read.csv(filepath,header=True,sep='|',quote='')
上述方法正确地给出了特定的列数据,但空列的值为“””,但我们需要空列。
方法2:
df=spark.read.csv(filepath,header=True,sep='|',quote='',escape='\"')
上述方法将值合并到单个列中,就像实际输出一样。
【问题讨论】: