【问题标题】:spark structured streaming parquet overwrite火花结构化流式镶木地板覆盖
【发布时间】:2020-02-25 12:19:46
【问题描述】:

我希望能够用镶木地板格式覆盖我的输出路径, 但它不在可用操作中(追加、完成、更新), 这里有另一种解决方案吗?

val streamDF = sparkSession.readStream.schema(schema).option("header","true").parquet(rawData)

val query = streamDF.writeStream.outputMode("overwrite").format("parquet").option("checkpointLocation",checkpoint).start(target)
query.awaitTermination()

【问题讨论】:

  • 我从来不明白为微批量写入镶木地板,是不是太慢了?
  • @thebluephantom,还不错,但你有什么建议吗?
  • 它是柱状的,正常的thruput构建镶木地板会更慢,至少这是我学到的

标签: apache-spark spark-streaming parquet spark-structured-streaming


【解决方案1】:

Apache Spark 仅支持File SinkAppend 模式。 Check out here

在写入数据之前,您需要编写代码从file system 删除路径/文件夹/文件。

Check out this stackoverflow linkForeachWriter。这将帮助您实现您的案例。

【讨论】:

    猜你喜欢
    • 2018-06-06
    • 2020-01-10
    • 2019-02-09
    • 1970-01-01
    • 2018-12-20
    • 2016-01-18
    • 2021-07-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多