【发布时间】:2021-10-22 01:26:25
【问题描述】:
我有 5 个 CSV 文件,并且标题仅在第一个文件中。我想使用 spark 读取和创建数据框。我的下面的代码有效,但是,我使用这种方法丢失了 4 行数据,因为在最终读取中标题设置为 true。如果我将标题设置为 false,我会取回 4 行数据,但我也会从第一个文件中获取实际标题作为数据中的一行。
有没有更有效的方法来做到这一点,这样标题就不会在我的数据集中显示为一行?
header = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load("path/file-1")
schema = header.schema
df = spark.read \
.format("csv") \
.option("header", "true") \
.schema(schema) \
.load("path")
【问题讨论】:
标签: python apache-spark pyspark