_spark_metadata 导致问题答案

【问题标题】：_spark_metadata causing problems_spark_metadata 导致问题
【发布时间】：2019-04-04 14:40:33
【问题描述】：

我将 Spark 与 Scala 一起使用，并且我有一个目录，其中包含多个文件。

在这个目录中，我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。

Spark 流式生成一个目录_spark_metadata。

我面临的问题是，当我使用 Spark (sparksession.read.load) 读取目录时，它只读取 Spark 流生成的数据，就像其他数据不存在一样。

有人知道如何解决这个问题，我认为应该有一个属性来强制 Spark 忽略 spark_metadata 目录。

感谢您的帮助

【问题讨论】：

【解决方案1】：

我有同样的问题（Spark 2.4.0），我知道的唯一方法是使用掩码/模式加载文件，类似这样

sparksession.read.format("parquet").load("/path/*.parquet")

据我所知有no way to ignore this directory。如果存在，Spark 会考虑。

【讨论】：