【问题标题】:Pyspark How to Ignore Double quotes from the data present in the CSV filesPyspark 如何忽略 CSV 文件中存在的数据中的双引号
【发布时间】:2022-01-19 19:17:20
【问题描述】:

我的数据中有“(单引号),即使我使用了分隔符值,所有对应的列值也合并为一列。在我的情况下是 '|'是我的分隔符。

实际数据:

a|"b|c|d|

预期输出:

a|"b|c|d

实际输出:

a|"b**|c|d|**null|null| (这里的第 3 列和第 4 列作为单列出现,代替实际的第 3 列和第 4 列。获取值为 null)

我尝试了以下方法:

方法一:

df=spark.read.csv(filepath,header=True,sep='|',quote='')

上述方法正确地给出了特定的列数据,但空列的值为“””,但我们需要空列。

方法2:

df=spark.read.csv(filepath,header=True,sep='|',quote='',escape='\"')

上述方法将值合并到单个列中,就像实际输出一样。

【问题讨论】:

    标签: csv pyspark delimiter


    【解决方案1】:

    经过一些头和小径

    找到解决方案

    使用以下两个选项读取文件:

    quote='',escape='\"'
    

    【讨论】:

      猜你喜欢
      • 2019-06-28
      • 2017-08-08
      • 2016-04-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-03
      • 1970-01-01
      相关资源
      最近更新 更多