【发布时间】:2018-10-30 19:23:01
【问题描述】:
我正在使用 Kafka 并在 EMRFS 中写入 parquet。以下代码适用于spark-shell:
val filesink_query = outputdf.writeStream
.partitionBy(<some column>)
.format("parquet")
.option("path", <some path in EMRFS>)
.option("checkpointLocation", "/tmp/ingestcheckpoint")
.trigger(Trigger.ProcessingTime(10.seconds))
.outputMode(OutputMode.Append)
.start
SBT 能够无错误地打包代码。当 .jar 被发送到 spark-submit 时,该作业被接受并永远保持在运行状态,而不会将数据写入 HDFS。
.inprogress 日志中没有错误
一些帖子建议水印持续时间过长会导致它,但我没有设置自定义水印持续时间。
【问题讨论】:
-
遇到同样的问题。你找到解决办法了吗?
-
我们出于不相关的原因放弃了 EMR,但如果我没记错的话,我改为写入本地磁盘,然后分批复制到 S3 一段时间。
标签: apache-spark spark-structured-streaming