【发布时间】:2021-12-21 10:10:01
【问题描述】:
我在 Azure Synapse Notebooks 中工作,并从格式良好的文件夹路径将读取文件读入 Dataframe,如下所示:
鉴于该通配符引用了许多文件夹,我如何将“状态”值捕获为生成的 Dataframe 中的一列?
【问题讨论】:
-
是的,但它包含整个文件路径,而不是 HDFS 命名的小节。
-
试试:
df = spark.read.load("abfss://....dfs.core.windows.net/"),spark可以直接读取文件夹,df应该包含state列。 -
OH @Steven - 我看到你在那里做了什么 - 如果我没有在路径中指定通配符,那么我将路径值作为列。这对我有用 - 如果您将其添加为答案,我会接受它。
标签: pyspark apache-spark-sql azure-synapse