spark“basePath”选项设置答案

【问题标题】：spark "basePath" option settingspark“basePath”选项设置
【发布时间】：2017-03-29 06:11:41
【问题描述】：

当我这样做时：

allf = spark.read.parquet("gs://bucket/folder/*")

我明白了：

java.lang.AssertionError：断言失败：检测到冲突的目录结构。可疑路径：

...以及路径列表之后的以下消息：

如果提供的路径是分区目录，请在数据源的选项中设置“basePath”来指定表的根目录。如果有多个根目录，请分别加载，然后合并。

我是 Spark 的新手。我相信我的数据源实际上是“文件夹”的集合（类似于base/top_folder/year=x/month=y/*.parquet），我想加载所有文件并对其进行转换。

感谢您的帮助！

【问题讨论】：

【解决方案1】：

Parquet partition discovery 上的每个 Spark 文档，我相信将您的负载语句从

allf = spark.read.parquet("gs://bucket/folder/*")

到

allf = spark.read.parquet("gs://bucket/folder")

应该发现并加载所有 parquet 分区。这是假设数据是以“文件夹”作为其基本目录写入的。

如果目录 base/folder 实际上包含多个数据集，您将需要独立加载每个数据集，然后将它们合并在一起。

【讨论】：