Apache spark - 处理自动更新输入答案

【问题标题】：Apache spark - dealing with auto-updating inputsApache spark - 处理自动更新输入
【发布时间】：2015-01-16 13:35:36
【问题描述】：

我是 spark 新手，最近经常使用它来进行一些批处理。目前我有一个新的要求，并坚持如何处理它。我有一个必须处理的文件，但这个文件可以定期更新。我希望处理初始文件，并且当文件有更新时，我希望触发火花操作，并且这次应该只对更新的部分进行操作。任何解决此问题的方法都会有所帮助。一个我愿意将任何其他技术与 spark 结合使用。这些文件通常位于文件系统上，大小可能为数 GB。

【问题讨论】：

标签： hadoop bigdata apache-spark

【解决方案1】：

单独的 Spark 无法识别文件是否已更新。它在第一次读取文件时完成了它的工作，仅此而已。

默认情况下，Spark 不知道文件已更新，也不知道文件的哪些部分已更新。

您应该使用文件夹，Spark 可以在文件夹上运行并且可以识别其中是否有要处理的新文件 -> sc.textFile(PATH_FOLDER)...

【讨论】：