【发布时间】:2018-10-16 02:02:35
【问题描述】:
我有存储大量 JSON 文件的 AWS S3 文件夹。我需要使用 AWS EMR over Spark 对这些文件进行 ETL,并将转换存储到 AWS RDS。
为此,我在 Scala 上实现了 Spark 作业,一切正常。我计划每周执行一次这项工作。
外部逻辑有时会向 AWS S3 文件夹添加新文件,因此下次启动 Spark 作业时,我只想处理新的(未处理的)JSON 文件。
现在我不知道在哪里存储有关已处理 JSON 文件的信息,因此 Spark 作业可以决定要处理哪些文件/文件夹。您能否告诉我使用 Spark/AWS 跟踪此更改的最佳做法(以及如何)?
【问题讨论】:
标签: amazon-web-services apache-spark amazon-emr