【发布时间】:2015-07-09 17:02:36
【问题描述】:
我可以在 HDFS 上安装 file watcher 吗?
场景: 文件不断登陆HDFS。一旦文件数量达到阈值(可以是文件数量或文件大小),我想启动Spark Job。
是否可以在 HDFS 上实现文件观察器来实现这一点。如果是,那么任何人都可以建议这样做的方法吗?有哪些不同的选择? Zookeeper 或 Oozie 能做到吗?
任何帮助将不胜感激。谢谢。
【问题讨论】:
-
Spark Streaming 也有类似的功能:在FileInputDStream
-
我能想到的简单的事情是你可以像这样使用 unix 命令:hadoop fs -ls | wc -l
-
@YijieShen 可以详细说明一下吗?
-
@user3484461 是的。它会列出 hdfs 目录中的所有文件及其详细信息。我正在尝试按照您的建议实施它。
-
是的,您可以使用 Inotification 执行此操作。您只需要通过 inotifyier 获取 HDFS 事务的详细信息,以便更好地理解阅读此link。
标签: hadoop apache-spark hdfs file-watcher