【发布时间】:2016-02-03 21:10:51
【问题描述】:
我有一个 Spark 作业,它从 HDFS 读取数百万条记录,对其进行处理,然后以 AVRO 格式写回 HDFS。观察到许多文件(已写入)仍处于 .avro.tmp 状态。
我正在使用 Kite SDK 以 AVRO 格式写入数据。环境是CDH 5.5。
可能是因为 Spark 作业在完成读取记录并将它们发送给执行程序(实际上是由执行程序执行写入操作?)后立即终止?
如果是这种情况,我如何确保在所有 .tmp 都转换为 .avro 之前作业不会终止?或者还有什么原因?
【问题讨论】:
标签: java apache-spark avro kite-sdk