【发布时间】:2017-06-17 02:00:31
【问题描述】:
我有多个 Java 进程。每个进程将生成一个数据文件,该文件将定期包含新数据。
我需要 Spark 来读取这些文件并将数据转储到数据库中。 关于上述要求,我有以下问题-
- Spark 有什么方法可以知道它已经处理了 1000 条记录,并且每次选择要处理的文件时都必须从 1001 开始?
- 或者我是否必须在 Spark 处理 1000 条记录后清除文件,并且每次文件应仅包含未处理的记录。在这种情况下,如何在同一个文件中读取和写入记录。
由于我不断生成数据,我不能等待 Spark 完成其工作,然后允许文件加载新数据。
【问题讨论】:
标签: java apache-spark