【发布时间】:2020-07-01 08:37:58
【问题描述】:
我能够将 csv 文件从 Azure datalake 加载到 pyspark 数据帧中。 如何删除第一行并将第二行作为我的标题?
我见过一些 RDD 解决方案。但我无法加载文件,并且使用以下代码出现错误,因为“RDD 为空”
items = sc.textFile(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv")
firstRow=data.first()
因此,我更喜欢使用标准火花加载,如下所示。我可以显示数据框内容。我必须删除或删除第一行并将第二行作为标题。谢谢。
items= spark.read.format("csv").load(f"abfss://{container}@{storage_account_name}.dfs.core.windows.net/tmp/items.csv", header=True)
【问题讨论】:
标签: python-3.x azure csv pyspark databricks