【发布时间】:2015-01-16 13:35:36
【问题描述】:
我是 spark 新手,最近经常使用它来进行一些批处理。 目前我有一个新的要求,并坚持如何处理它。 我有一个必须处理的文件,但这个文件可以定期更新。我希望处理初始文件,并且当文件有更新时,我希望触发火花操作,并且这次应该只对更新的部分进行操作。任何解决此问题的方法都会有所帮助。一个 我愿意将任何其他技术与 spark 结合使用。这些文件通常位于文件系统上,大小可能为数 GB。
【问题讨论】:
标签: hadoop bigdata apache-spark