【问题标题】:pyspark - read csv with custom row delimiterpyspark - 使用自定义行分隔符读取 csv
【发布时间】:2021-12-15 05:30:12
【问题描述】:

如何使用 pyspark 读取带有自定义行分隔符 (\x03) 的 csv 文件? 我尝试了以下代码,但没有成功。

df = spark.read.option("lineSep","\x03").csv(path)
display(df)

【问题讨论】:

    标签: csv apache-spark pyspark databricks delimiter


    【解决方案1】:

    适用于 OSS Spark (3.2.0) 和 DBR 9.1 ML:

    >>> df = spark.read.option("lineSep","\x03")\
         .option("header", "true").csv("/path_to_file.csv")
    >>> df.show()
    +----+----+
    |val1|val2|
    +----+----+
    |   1|   2|
    |   3|   4|
    +----+----+
    

    寻找文件内部的问题,或类似的东西。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-05-06
      • 2018-03-03
      • 2021-08-14
      • 1970-01-01
      • 2020-12-17
      • 1970-01-01
      • 2017-12-16
      相关资源
      最近更新 更多