【发布时间】:2022-01-18 21:15:09
【问题描述】:
我想忽略产生错误的路径:
'路径不存在'
当我使用 pyspark 读取镶木地板文件时。例如我有一个路径列表:
list_paths = ['path1','path2','path3']
并阅读以下文件:
dataframe = spark.read.parquet(*list_paths)
但路径path2 不存在。一般来说,我不知道哪个路径不退出,所以我想自动忽略path2。我怎样才能做到这一点并且只获得一个数据帧?
【问题讨论】:
-
下面的帖子能回答你的问题吗?
标签: python apache-spark pyspark apache-spark-sql parquet