【问题标题】:Amazon Kinesis Analytics for archival data用于归档数据的 Amazon Kinesis Analytics
【发布时间】:2018-11-22 03:49:33
【问题描述】:

背景

我发现 Amazon Kinesis Data Analytics 可用于流式传输数据以及 S3 存储桶中存在的数据。

但是,the Kinesis documentation 的某些部分让我质疑 Amazon Kinesis Analytics 是否可以用于 S3 存储桶中的大量现有数据:

编写应用程序代码

我们建议如下:

  • 在您的 SQL 语句中,不要指定超过一小时的基于时间的窗口,原因如下:

    • 有时需要重新启动应用程序,因为您更新了应用程序或 Kinesis Data Analytics 内部原因。重新启动时,必须从流数据源再次读取窗口中包含的所有数据。 Kinesis Data Analytics 需要一些时间才能为该窗口发出输出。

    • Kinesis Data Analytics 必须在持续时间内维护与应用程序状态相关的所有内容,包括相关数据。这会消耗大量 Kinesis Data Analytics 处理单元。

问题

Amazon Kinesis Analytics 是否适合这项任务?

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-ec2 analytics amazon-kinesis


    【解决方案1】:

    Amazon Kinesis Analytics 的主要用例是流数据处理。因此,您将 Amazon Kinesis Analytics 应用程序附加到流数据源。您可以选择包含来自 S3 的参考数据,目前其大小限制为 1 GB。我们会将数据从 S3 对象加载到 SQL 表中,您可以使用该表来丰富传入的流。

    听起来需要一个更通用的工具来从 S3 查询数据,而不是流数据处理解决方案。我建议您查看 Presto 和 Amazon EMR,而不是使用 Amazon Kinesis Analytics。

    免责声明:我在 Amazon Kinesis 团队工作。

    【讨论】:

    猜你喜欢
    • 2017-06-12
    • 1970-01-01
    • 2017-08-25
    • 1970-01-01
    • 2018-04-02
    • 2022-08-19
    • 2019-12-28
    • 1970-01-01
    • 2018-03-22
    相关资源
    最近更新 更多