【发布时间】:2020-02-25 12:19:46
【问题描述】:
我希望能够用镶木地板格式覆盖我的输出路径, 但它不在可用操作中(追加、完成、更新), 这里有另一种解决方案吗?
val streamDF = sparkSession.readStream.schema(schema).option("header","true").parquet(rawData)
val query = streamDF.writeStream.outputMode("overwrite").format("parquet").option("checkpointLocation",checkpoint).start(target)
query.awaitTermination()
【问题讨论】:
-
我从来不明白为微批量写入镶木地板,是不是太慢了?
-
@thebluephantom,还不错,但你有什么建议吗?
-
它是柱状的,正常的thruput构建镶木地板会更慢,至少这是我学到的
标签: apache-spark spark-streaming parquet spark-structured-streaming