【发布时间】:2016-03-05 12:37:18
【问题描述】:
我们有一个包含大量文件的 S3 存储桶。文件列表每天都在增长。我们需要一种方法来获取文件列表并根据文件名中存在的元数据生成计数(分组依据)。我们不需要此内容。这些文件很大并且包含二进制内容,因此下载它们并不是最佳选择。
我们目前正在使用 S3 Java API 获取文件名列表,将它们存储在列表中,并使用 Spark 进行处理。这目前适用,因为文件数量有数十万,但无法扩展以满足我们未来的需求。
有没有办法使用 Spark 进行整个处理?
【问题讨论】:
-
听起来你最好在数据库中存储+索引文件名。如果您只是在名称之后,我也建议使用此方法:stackoverflow.com/questions/3337912/… without using the Java API
标签: java amazon-s3 apache-spark