AWS Kinesis Multipart 上传到 Amazon S3 存储桶答案

【问题标题】：AWS Kinesis Multipart Upload to an Amazon S3 bucketAWS Kinesis Multipart 上传到 Amazon S3 存储桶
【发布时间】：2021-06-02 15:42:21
【问题描述】：

我想从 Kinesis 将分段上传到我的 Amazon S3 存储桶。由于 Amazon S3 是一个文件系统，因此对于每个条目，它都会在给定的存储桶名称下创建一个文件。

只要在 Amazon S3 的特定文件夹中有新文件，我的 Amazon S3 就会为 AWS 粘合作业提供数据，因为它会触发 Lambda 函数。使用流数据每秒会有多个文件。

如何控制 Kinesis 端的文件大小，以便 Kinesis 仅在达到特定阈值后才将数据推送到 Amazon S3 存储桶上？这样当我达到这个规模时，我就会触发我的工作。

【问题讨论】：

对于 Kinesis Data Firehouse，您可以配置缓冲区大小和缓冲区间隔。例如，对于 S3，您可以将缓冲区大小设置为最大 128MB，然后再将数据传递到 S3。
@KevinHorgan Aah 我明白了，所以在这种情况下，Kineses 会将数据保存在自己的内存中，就像 kafka 将其保存在其主题中一样？然后将其作为单个事件完全刷新到 Amazon S3 存储桶上？

【解决方案1】：

您可以使用AWS Glue Triggers 代替 lambda。

例如，为 Glue 设置一个 cron 时间。

【讨论】：

这是在将数据放入 s3 之前，我认为 kinesis Firehose 会更合适。将数据放入 s3 后，我很想稍后再使用 Glue 作业。此外，我还必须检查胶水。了解后会有更清晰的画面。