【发布时间】:2017-03-29 06:11:41
【问题描述】:
当我这样做时:
allf = spark.read.parquet("gs://bucket/folder/*")
我明白了:
java.lang.AssertionError:断言失败:检测到冲突的目录结构。可疑路径:
...以及路径列表之后的以下消息:
如果提供的路径是分区目录,请在数据源的选项中设置“basePath”来指定表的根目录。如果有多个根目录,请分别加载,然后合并。
我是 Spark 的新手。我相信我的数据源实际上是“文件夹”的集合(类似于base/top_folder/year=x/month=y/*.parquet),我想加载所有文件并对其进行转换。
感谢您的帮助!
- 更新 1:我查看了 Dataproc 控制台,在创建集群时无法设置“选项”。
- 更新 2:我检查了集群的“cluster.properties”文件,没有这样的选项。是不是我必须添加一个并重置集群?
【问题讨论】:
标签: apache-spark pyspark google-cloud-dataproc