【发布时间】:2021-05-15 21:11:44
【问题描述】:
所以,我是初学者,正在 Databricks 上学习 spark 编程 (pyspark) -
我想做什么?
列出目录中的所有文件并将其保存到数据框中,以便我能够在此文件列表上应用过滤器、排序等。为什么 ?因为我试图在我的目录中找到最大的文件。
为什么下面不起作用? 我错过了什么?
从 pyspark.sql.types 导入字符串类型
sklist = dbutils.fs.ls(sourceFile)
df = spark.createDataFrame(sklist,StringType())
【问题讨论】:
标签: python pyspark databricks apache-commons-dbutils