【发布时间】:2020-10-01 19:30:24
【问题描述】:
我很困惑,很难找到有人想要从现有数据湖(在我的例子中是 S3/Lakeformation)中提取数据并构建用作应用程序后端的 OLTP 数据存储的示例和参考架构。我遇到的一切都是 OLAP 数据仓库模式(即 ETL -> S3 -> Redshift -> BI 工具),其中数据总是进入数据湖和仓库,而不是被拉出。我不一定需要“业务分析”,但我确实需要在 Web 仪表板中为我的网站用户显示带有大量时间序列数据点的图表。
-
如果我想自动提取数据湖中的大型数据集并构建一个关系数据库,其中包含从需要手动查询的各种数据集中提取的一些有用数据,而不是对 DW 执行大型分析查询,该怎么办? ?
-
如果我只想提取过去 10 年的股票价格,并获取用于填充 Web 应用程序下拉列表的唯一股票代码列表,该怎么办?我不想每次都查询 OLAP 数据仓库来获取此信息,所以我想拥有自己的 OLTP 存储,以便在 TPS 更高的较小数据集上进行更高性能的查询?
-
如果我想为我的网络应用程序的客户构建仪表板,以显示当前位于数据湖/仓库中的大量时间序列数据的图表,该怎么办。我的 Web 应用程序是否直接连接到 DW 以显示此数据?或者我是否按某个计划将这些数据从数据湖或仓库中提取出来并放入我的应用程序数据库中?
【问题讨论】:
标签: amazon-s3 amazon-redshift etl amazon-rds