【问题标题】:_spark_metadata causing problems_spark_metadata 导致问题
【发布时间】:2019-04-04 14:40:33
【问题描述】:

我将 Spark 与 Scala 一起使用,并且我有一个目录,其中包含多个文件。

在这个目录中,我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。

Spark 流式生成一个目录_spark_metadata

我面临的问题是,当我使用 Spark (sparksession.read.load) 读取目录时,它只读取 Spark 流生成的数据,就像其他数据不存在一样。

有人知道如何解决这个问题,我认为应该有一个属性来强制 Spark 忽略 spark_metadata 目录。

感谢您的帮助

【问题讨论】:

    标签: scala apache-spark spark-streaming


    【解决方案1】:

    我有同样的问题(Spark 2.4.0),我知道的唯一方法是使用掩码/模式加载文件,类似这样

    sparksession.read.format("parquet").load("/path/*.parquet")
    

    据我所知有no way to ignore this directory。如果存在,Spark 会考虑。

    【讨论】:

      猜你喜欢
      • 2011-06-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-06-09
      • 2011-06-14
      • 2018-08-01
      相关资源
      最近更新 更多