【发布时间】:2018-11-22 03:49:33
【问题描述】:
背景
我发现 Amazon Kinesis Data Analytics 可用于流式传输数据以及 S3 存储桶中存在的数据。
但是,the Kinesis documentation 的某些部分让我质疑 Amazon Kinesis Analytics 是否可以用于 S3 存储桶中的大量现有数据:
编写应用程序代码
我们建议如下:
在您的 SQL 语句中,不要指定超过一小时的基于时间的窗口,原因如下:
有时需要重新启动应用程序,因为您更新了应用程序或 Kinesis Data Analytics 内部原因。重新启动时,必须从流数据源再次读取窗口中包含的所有数据。 Kinesis Data Analytics 需要一些时间才能为该窗口发出输出。
Kinesis Data Analytics 必须在持续时间内维护与应用程序状态相关的所有内容,包括相关数据。这会消耗大量 Kinesis Data Analytics 处理单元。
问题
Amazon Kinesis Analytics 是否适合这项任务?
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-ec2 analytics amazon-kinesis