【发布时间】:2021-12-15 05:30:12
【问题描述】:
如何使用 pyspark 读取带有自定义行分隔符 (\x03) 的 csv 文件? 我尝试了以下代码,但没有成功。
df = spark.read.option("lineSep","\x03").csv(path)
display(df)
【问题讨论】:
标签: csv apache-spark pyspark databricks delimiter
如何使用 pyspark 读取带有自定义行分隔符 (\x03) 的 csv 文件? 我尝试了以下代码,但没有成功。
df = spark.read.option("lineSep","\x03").csv(path)
display(df)
【问题讨论】:
标签: csv apache-spark pyspark databricks delimiter
适用于 OSS Spark (3.2.0) 和 DBR 9.1 ML:
>>> df = spark.read.option("lineSep","\x03")\
.option("header", "true").csv("/path_to_file.csv")
>>> df.show()
+----+----+
|val1|val2|
+----+----+
| 1| 2|
| 3| 4|
+----+----+
寻找文件内部的问题,或类似的东西。
【讨论】: