【问题标题】:Can I store time series data in data warehouse?我可以将时间序列数据存储在数据仓库中吗?
【发布时间】:2021-11-23 12:06:54
【问题描述】:

背景:

我有一个 Airflow 作业,每 10 分钟从第三方端点收集一次数据(过去 24 小时内的行业市场份额)。我目前将数据存储在 S3 中。我们想用这些数据来计算我们的市场份额。我计划将数据仓库中的数据保留为时间序列独立表(不是维度或事实),用于查询以将其与我们的数据(存储在星型模式中)进行比较,以获得每日市场份额。

问题:

数据仓库是存储时间序列数据的正确位置吗?我们可以存储类似这样的独立表吗?表是否需要成为星型模式的一部分才能将其保存在数据仓库中?

【问题讨论】:

    标签: time-series snowflake-cloud-data-platform data-warehouse


    【解决方案1】:

    Snowflake 对存储时间序列数据的使用没有限制,数据不需要存储在星型模式中。 您必须考虑如何加载这些数据,这取决于您希望以多快的速度在数据仓库中看到它。 您可以使用 Snowpipe 功能并动态加载数据。

    演示文稿:Snowpipe: Load data fast, analyze even faster

    文档:Introduction to Snowpipe

    或者,使用 STREAM 和 TASK 功能以指定的时间间隔加载数据。设置例如如果 STREAM 在 AWS S3 上检测到任何新数据,则每 10 分钟执行一次循环任务并下载数据。

    演示文稿:Randy Pitcher Streams & Tasks Hands on Lab

    文档:Introduction to TasksCREATE STREAM

    【讨论】:

      【解决方案2】:

      按时间序列,您指的是表示为 JSON 的实时/近实时数据?

      是的,半结构化数据可以存储在 Variant 数据类型中,并且可以轻松地就地查询或具体化到与变量数据类型相同的表中的结构化列中

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2022-11-15
        • 1970-01-01
        • 2011-08-14
        • 1970-01-01
        • 1970-01-01
        • 2017-01-04
        • 1970-01-01
        • 2013-03-12
        相关资源
        最近更新 更多