【问题标题】:Apache spark - dealing with auto-updating inputsApache spark - 处理自动更新输入
【发布时间】:2015-01-16 13:35:36
【问题描述】:

我是 spark 新手,最近经常使用它来进行一些批处理。 目前我有一个新的要求,并坚持如何处理它。 我有一个必须处理的文件,但这个文件可以定期更新。我希望处理初始文件,并且当文件有更新时,我希望触发火花操作,并且这次应该只对更新的部分进行操作。任何解决此问题的方法都会有所帮助。一个 我愿意将任何其他技术与 spark 结合使用。这些文件通常位于文件系统上,大小可能为数 GB。

【问题讨论】:

    标签: hadoop bigdata apache-spark


    【解决方案1】:

    单独的 Spark 无法识别文件是否已更新。 它在第一次读取文件时完成了它的工作,仅此而已。

    默认情况下,Spark 不知道文件已更新,也不知道文件的哪些部分已更新。

    您应该使用文件夹,Spark 可以在文件夹上运行并且可以识别其中是否有要处理的新文件 -> sc.textFile(PATH_FOLDER)...

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-01-27
      • 2016-05-26
      • 1970-01-01
      • 2017-02-20
      • 2017-12-20
      • 1970-01-01
      • 2017-04-17
      相关资源
      最近更新 更多