Pyspark 如何忽略 CSV 文件中存在的数据中的双引号答案

【问题标题】：Pyspark How to Ignore Double quotes from the data present in the CSV filesPyspark 如何忽略 CSV 文件中存在的数据中的双引号
【发布时间】：2022-01-19 19:17:20
【问题描述】：

我的数据中有“（单引号），即使我使用了分隔符值，所有对应的列值也合并为一列。在我的情况下是 '|'是我的分隔符。

实际数据：

a|"b|c|d|

预期输出：

a|"b|c|d

实际输出：

a|"b**|c|d|**null|null| （这里的第 3 列和第 4 列作为单列出现，代替实际的第 3 列和第 4 列。获取值为 null）

我尝试了以下方法：

方法一：

df=spark.read.csv(filepath,header=True,sep='|',quote='')

上述方法正确地给出了特定的列数据，但空列的值为“””，但我们需要空列。

方法2：

df=spark.read.csv(filepath,header=True,sep='|',quote='',escape='\"')

上述方法将值合并到单个列中，就像实际输出一样。

【问题讨论】：

标签： csv pyspark delimiter

【解决方案1】：

经过一些头和小径

找到解决方案

使用以下两个选项读取文件：

quote='',escape='\"'

【讨论】：