【发布时间】:2018-09-08 14:08:56
【问题描述】:
我是一名分析师,为其他团队准备 Tableau 报告和分析。我想通过创建一个如此优化的数据源来减轻我的负担,以便用户能够使用它来获取他们需要的数据并自己进行分析。
现状:
我们使用 Amazon Redshift。我们有直接来自系统的原始数据的表格。此外,我们还有一些转换后的表格,以便于工作。总而言之,它是几十和几十张桌子。我们正在使用 Tableau 桌面和 Tableau 服务器。
期望的情况:
我想保留对原始数据的访问权限,以便我可以将任何潜在问题回溯到原始来源。从原始数据中,我想创建允许用户对其进行查询的转换表(两层系统)。这些表应该包含用户可能需要的所有数据,但对于初级 SQL 用户来说足够简单。
我看到了两种解决方法:
- 包含所有数据的少量非常大的表。如果只有几个表包含最大量的数据,用户可以只查询一个表并询问他需要的列。或者,如有必要,将一两个表加入其中。
- 许多小型且非常专业的表格。用户必须进行多次连接才能获得所需的数据,但所有表都非常简单,因此不会很困难。
此外,还需要考虑对数据的访问权限。
您认为解决我的问题的好方法是什么?是上述两种解决方案中的任何一种吗?您还有其他解决方案吗?你会推荐什么?
【问题讨论】:
-
为此,我将建立一个由数据湖支持的简单数据仓库来保存原始数据。我会使用气流来协调工作以实现这一点。我会考虑红移光谱并将原始数据保存在 s3 上。
标签: database database-design amazon-redshift