【发布时间】:2018-03-04 00:14:53
【问题描述】:
我正在开发一个 Spark-Kafka Streaming 程序,我需要在其中捕获 kafka 分区偏移量,以便处理故障情况。
大多数开发人员都使用 Hbase 作为偏移量的存储,但是如果我使用 hdfs 或本地磁盘上的文件来存储简单易行的偏移量会怎样? 我试图避免使用 Nosql 来存储偏移量。
我能知道使用文件而不是 hbase 来存储偏移量的优缺点是什么吗?
【问题讨论】:
-
嗯...如果该文件所在的硬盘发生故障怎么办? HBase 在 HDFS 上运行,所以如果你已经安装了 Hbase 并不重要。为什么不将偏移量存储在 Kafka 中?或者,动物园管理员? stackoverflow.com/questions/45686885/…
标签: apache-spark apache-kafka spark-streaming