【发布时间】:2019-04-04 14:40:33
【问题描述】:
我将 Spark 与 Scala 一起使用,并且我有一个目录,其中包含多个文件。
在这个目录中,我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件。
Spark 流式生成一个目录_spark_metadata。
我面临的问题是,当我使用 Spark (sparksession.read.load) 读取目录时,它只读取 Spark 流生成的数据,就像其他数据不存在一样。
有人知道如何解决这个问题,我认为应该有一个属性来强制 Spark 忽略 spark_metadata 目录。
感谢您的帮助
【问题讨论】:
标签: scala apache-spark spark-streaming