pyspark - 使用自定义行分隔符读取 csv

【问题标题】：pyspark - read csv with custom row delimiterpyspark - 使用自定义行分隔符读取 csv
【发布时间】：2021-12-15 05:30:12
【问题描述】：

如何使用 pyspark 读取带有自定义行分隔符 (\x03) 的 csv 文件？我尝试了以下代码，但没有成功。

df = spark.read.option("lineSep","\x03").csv(path)
display(df)

【问题讨论】：

标签： csv apache-spark pyspark databricks delimiter

【解决方案1】：

适用于 OSS Spark (3.2.0) 和 DBR 9.1 ML：

>>> df = spark.read.option("lineSep","\x03")\
     .option("header", "true").csv("/path_to_file.csv")
>>> df.show()
+----+----+
|val1|val2|
+----+----+
|   1|   2|
|   3|   4|
+----+----+

寻找文件内部的问题，或类似的东西。

【讨论】：