【问题标题】:Can we use Apache Kafka as a system for file watching我们可以使用 Apache Kafka 作为文件监视系统吗
【发布时间】:2017-09-28 00:29:33
【问题描述】:
我在 HDFS 中有源路径和目标路径。我们的 UpStream 将文件放在源路径中,如果有的话,我们会检查源路径中添加的任何新文件
我们从源路径复制到目标路径。
为此,我们现在正在使用 shell 脚本。但我想在两者之间使用 Kafka。我研究了一下,发现只有 HDFS 接收器连接器。 HDFS 没有源连接器。
我的问题是我们可以在这里使用 Kafka 吗?如何使用?
【问题讨论】:
标签:
apache-kafka
hdfs
apache-kafka-connect
【解决方案1】:
对于这个用例,我认为你不需要 kafka。
有多种方法可以做到这一点,例如,您可以使用 Zookeeper 观察者接口,该接口会在观察事件上触发 getter,并以编程方式将副本从您的程序中触发到 hadoop
作为替代方案,Hadoop 2.6 引入了 DFSInotifyEventInputStream,您可以使用它。您可以从 HdfsAdmin 获取它的实例,然后只需调用 .take() 或 .poll() 即可获取所有事件,并根据事件采取行动