【问题标题】:AWS Kinesis Multipart Upload to an Amazon S3 bucketAWS Kinesis Multipart 上传到 Amazon S3 存储桶
【发布时间】:2021-06-02 15:42:21
【问题描述】:

我想从 Kinesis 将分段上传到我的 Amazon S3 存储桶。由于 Amazon S3 是一个文件系统,因此对于每个条目,它都会在给定的存储桶名称下创建一个文件。

只要在 Amazon S3 的特定文件夹中有新文件,我的 Amazon S3 就会为 AWS 粘合作业提供数据,因为它会触发 Lambda 函数。使用流数据每秒会有多个文件。

如何控制 Kinesis 端的文件大小,以便 Kinesis 仅在达到特定阈值后才将数据推送到 Amazon S3 存储桶上?这样当我达到这个规模时,我就会触发我的工作。

【问题讨论】:

  • 对于 Kinesis Data Firehouse,您可以配置缓冲区大小和缓冲区间隔。例如,对于 S3,您可以将缓冲区大小设置为最大 128MB,然后再将数据传递到 S3。
  • @KevinHorgan Aah 我明白了,所以在这种情况下,Kineses 会将数据保存在自己的内存中,就像 kafka 将其保存在其主题中一样?然后将其作为单个事件完全刷新到 Amazon S3 存储桶上?

标签: amazon-web-services amazon-s3 amazon-kinesis amazon-kinesis-analytics


【解决方案1】:

您可以使用AWS Glue Triggers 代替 lambda。

例如,为 Glue 设置一个 cron 时间。

【讨论】:

  • 这是在将数据放入 s3 之前,我认为 kinesis Firehose 会更合适。将数据放入 s3 后,我很想稍后再使用 Glue 作业。此外,我还必须检查胶水。了解后会有更清晰的画面。
猜你喜欢
  • 2017-10-14
  • 2018-04-12
  • 1970-01-01
  • 2018-04-25
  • 2020-07-26
  • 2018-04-04
  • 2017-04-19
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多