【发布时间】:2013-01-15 07:45:04
【问题描述】:
我接触过 Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者的描述,它们似乎可以互换,但在一些论文中写道,它们用于不同的目的。但我发现的都是模糊的。我很困惑。
有人体验过这两种方法吗?它们之间的严重区别是什么?
简单示例:我想构建 ETL,它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD?为什么选择 Hadoop?或者为什么不呢?
【问题讨论】:
-
您的原始数据是结构化的还是非结构化的?这个数据的到达率是多少?你能解释一下昂贵的分析是什么意思吗?您对完成此分析的服务水平期望是什么?贵公司是否拥有具备 SQL、R、SAS 和/或预测建模技能的人员?两者之间存在显着差异。它归结为了解您的业务问题是否可以通过数据建模 -> ETL -> 使用 SQL 分析的传统 RDBMS 范式来解决,或者您是否需要 MapReduce 可以提供的更多东西。
-
原始数据是结构化的。到达率是每天几大块数据。昂贵的分析:CPU 昂贵,一些查询昂贵的数据预先安排(我们可以说是结构化数据的 ETL,以抽象数据用于算法),但这些分析将在某些特定应用程序之外运行,因此不相关。但我的问题的本质是:Teradata 真的很贵。我可以在银行等行业中用 Hadoop 替代 Teradata 吗?
-
他们俩一起玩。有推荐使用 Teradata 的领域,也有推荐使用 Hadoop 的领域。 Teradata 现在正在迁移到Unified Architecture,因此 Hadoop 和 Teradata 可以集成并相互补充。
标签: database hadoop teradata business-intelligence