【问题标题】:Aggregate multiple S3 files into one file将多个 S3 文件聚合到一个文件中
【发布时间】:2021-06-27 02:33:36
【问题描述】:
我启用了 Firehose 流以将数据写入 S3。 Firehose 将数据放入位于max interval of 900s 的 S3 文件中。这意味着一天内将创建大约 100 个文件,这对于用户手动下载来说是一笔开销。
有没有办法以一定的频率(比如每天)自动将多个 S3 文件聚合到一个文件中?
【问题讨论】:
标签:
amazon-web-services
aws-glue
amazon-kinesis
amazon-kinesis-firehose
【解决方案1】:
没有自动开箱即用的服务,因为这是一个特定于用例的问题。但是,在标题为
的 AWS 博客中
他们就如何有效地做到这一点提供了一些指导。在此博客中,他们说您可以将这些文件视为多次上传的一部分,并让 S3 自动为您加入它们。
我不确定此解决方案是否适用于您的用例,但可能值得考虑。
否则,您必须下载这些对象,自己加入它们(例如压缩它们),然后重新上传加入的文件夹。这可以是自动化的,例如使用您每天自动运行一次的实例或容器。