【问题标题】:What kind of data gets stored in data warehouses? [closed]什么样的数据会存储在数据仓库中? [关闭]
【发布时间】:2013-05-13 05:37:06
【问题描述】:

查看 Amazon Redshift 等服务,该服务旨在存储 PB 级数据。什么形式的数据应该存储在这里?日志、原始数据?

【问题讨论】:

  • Amazon Redshift 是一个列式数据库,其中数据按列而不是行存储。这为大量数据的聚合查询提供了速度优势。
  • 这本身并不是一个真正的编程问题,可能会被关闭。 Redshift 是一项非常新的服务,显然是为了取代 Teradata/Netezza/Vertica 等现场数据仓库设备,或基于 Oracle/SQL Server/MySQL 构建的大型数据仓库。有关详细信息,请参阅 Ralph Kimball 的书“数据仓库工具包”。

标签: amazon-web-services amazon-redshift data-warehouse


【解决方案1】:

数据仓库的问题不在于您在其中存储什么样的信息,而在于您如何存储它以及您打算将其用于什么用途。组织需要分析和比较的任何数据都可以放入数据仓库。

定义数据仓库非常困难,您可能会得到与您询问的人一样多的定义。我见过很多不同的实现,没有人能真正说这是一个数据仓库,而事实并非如此。 然而,数据仓库通常应该满足一些关键点,即它应该是时间变量(即随时间存储数据点)并且它应该是非易失性 (即您从不更新数据仓库中的数据,您只插入)。

遵循这些规则,您可以进行最常见的数据仓库分析,即分析一段时间内的数据,例如比较本季与上季的销售额。

我不确定 Amazon Redshift 实际做了什么,但我认为它是否是数据仓库更多的是你如何使用它的问题。

【讨论】:

  • “非易失性”不一定是每个人都同意的。根据所存储的数据,可能会有一些数据在进行更正时确实发生变化。例如,如果用户粗略地计算“成本”值。另见“累积快照”事实表。
  • @N West 我绝对同意这一点,因为总是有规则让你在打破它们之前思考,并且正如你指出的那样,有许多技术,如 SCD 和各种标准化程度基于更新。我实际上从未见过或设计过 100% 符合这些“规则”的仓库。
【解决方案2】:

据我了解,Amazon Redshift 是一项服务而非一项技术。该服务旨在满足您的所有数据仓库需求,以保持最小的资本支出 (CAPEX)。

您可以有效地将其用作企业数据仓库解决方案(存储您需要花钱存储和分析的任何数据:无论是日志、原始非结构化数据、结构化数据——实际上是任何数据);这就是亚马逊的目标。它旨在为您节省基础设施、软件、设置甚至人员成本的成本,因此它的本质是一种服务。在数据行业工作了 20 年,我可以看到所提供的优势。

我还注意到,亚马逊甚至提供了一项认证计划,当您准备好冒险使用该解决方案时,该计划应该可以简化您必须雇用的人员来为该解决方案提供服务。

看到这个simple video here - 听起来好得令人难以置信。但我建议您获得经过认证或在 Amazon 云基础设施部署方面非常有经验的人,see some partners here,这样您才能了解真正的来龙去脉。我相信他们会在售前工作中为您提供免费咨询。

一切顺利! 莱斯利

【讨论】:

  • 听起来好得令人难以置信。仅 ETL 时间就可以将 PB 的数据通过网络加载到这个系统中......
猜你喜欢
  • 1970-01-01
  • 2017-01-04
  • 1970-01-01
  • 1970-01-01
  • 2011-06-18
  • 1970-01-01
  • 1970-01-01
  • 2013-12-25
  • 1970-01-01
相关资源
最近更新 更多