【发布时间】:2021-06-02 15:42:21
【问题描述】:
我想从 Kinesis 将分段上传到我的 Amazon S3 存储桶。由于 Amazon S3 是一个文件系统,因此对于每个条目,它都会在给定的存储桶名称下创建一个文件。
只要在 Amazon S3 的特定文件夹中有新文件,我的 Amazon S3 就会为 AWS 粘合作业提供数据,因为它会触发 Lambda 函数。使用流数据每秒会有多个文件。
如何控制 Kinesis 端的文件大小,以便 Kinesis 仅在达到特定阈值后才将数据推送到 Amazon S3 存储桶上?这样当我达到这个规模时,我就会触发我的工作。
【问题讨论】:
-
对于 Kinesis Data Firehouse,您可以配置缓冲区大小和缓冲区间隔。例如,对于 S3,您可以将缓冲区大小设置为最大 128MB,然后再将数据传递到 S3。
-
@KevinHorgan Aah 我明白了,所以在这种情况下,Kineses 会将数据保存在自己的内存中,就像 kafka 将其保存在其主题中一样?然后将其作为单个事件完全刷新到 Amazon S3 存储桶上?
标签: amazon-web-services amazon-s3 amazon-kinesis amazon-kinesis-analytics