【问题标题】：hadoop vs teradata what is the differencehadoop vs teradata 有什么区别
【发布时间】：2013-01-15 07:45:04
【问题描述】：

我接触过 Teradata。我从未接触过hadoop，但从昨天开始，我正在对此进行一些研究。通过对两者的描述，它们似乎可以互换，但在一些论文中写道，它们用于不同的目的。但我发现的都是模糊的。我很困惑。

有人体验过这两种方法吗？它们之间的严重区别是什么？

简单示例：我想构建 ETL，它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD？为什么选择 Hadoop？或者为什么不呢？

【问题讨论】：

您的原始数据是结构化的还是非结构化的？这个数据的到达率是多少？你能解释一下昂贵的分析是什么意思吗？您对完成此分析的服务水平期望是什么？贵公司是否拥有具备 SQL、R、SAS 和/或预测建模技能的人员？两者之间存在显着差异。它归结为了解您的业务问题是否可以通过数据建模 -> ETL -> 使用 SQL 分析的传统 RDBMS 范式来解决，或者您是否需要 MapReduce 可以提供的更多东西。
原始数据是结构化的。到达率是每天几大块数据。昂贵的分析：CPU 昂贵，一些查询昂贵的数据预先安排（我们可以说是结构化数据的 ETL，以抽象数据用于算法），但这些分析将在某些特定应用程序之外运行，因此不相关。但我的问题的本质是：Teradata 真的很贵。我可以在银行等行业中用 Hadoop 替代 Teradata 吗？
他们俩一起玩。有推荐使用 Teradata 的领域，也有推荐使用 Hadoop 的领域。 Teradata 现在正在迁移到Unified Architecture，因此 Hadoop 和 Teradata 可以集成并相互补充。

标签： database hadoop teradata business-intelligence

【解决方案1】：

我认为 this article 标题为“MapReduce 和并行 DBMS：朋友还是敌人”在描述每种技术最有效的情况方面做得很好。简而言之，Hadoop 非常适合存储非结构化数据和运行并行转换以“清理”传入数据，而 DBMS 擅长快速执行复杂的查询。

【讨论】：

【解决方案2】：

Hadoop、带扩展的 Hadoop、RDBMS 功能/属性比较

我不是这方面的专家，但在 coursera.com 课程“数据科学导论”中，有一个名为：Comparing MapReduce and Databases 的讲座以及关于并行数据库的讲座，位于课程。

以下是这些讲座中关于 MapReduce 与 RDBMS（不一定是并行 RDMBS）比较的总结。需要记住的一点是，如果您包含 PIG、Hive 等 Hadoop 扩展，则比较会有所不同。我将放入 () MapReduce 扩展，以添加其中一些功能/属性。

RDBMS 具有但本地 MapReduce 没有的一些功能/属性：

声明性查询语言 -(Pig, HIVE)
架构（Hive、Pig、DyradLINQ、Hadapt）
逻辑数据独立性
索引（Hbase）
代数优化（Pig、Dryad、HIVE）
缓存/物化视图
ACID/交易

MapReduce（相对于常规 RDBMS 不一定是 Parallel RDMBS）

高可扩展性
容错
“单人部署”

【讨论】：

【解决方案3】：

我多次被问到这个问题，我通常给出的答案是汽车类比（这很愚蠢，因为我不是汽车人 - 但它似乎有效）

Teradata 是面向大众的汽车/dbms - 它可靠、成熟、运行良好，在您需要时随时可用。很难（与 Hadoop 相比）为基础产品定制和添加功能。
Hadoop 是发烧友的汽车/dbms - 它不那么可靠或成熟，只要您注意它，它就可以很好地工作。（与 Teradata 相比）可以轻松自定义基础产品并为其添加功能。

换句话说，Teradata 是您放置关键任务流程（运营报告、企业报告、决策支持等）的可靠主力。 Hadoop 是您可以做很多此类事情的地方，但如果您有一天早上来到这里，发现您的监管报告无法生成，因为有人应用了补丁，或者您突然“太”了，请不要感到惊讶许多小文件”的问题。

回到这个类比，如果您不想太技术化并且制造商的产品（dbms 和/或汽车）开箱即用，Teradata 是一个不错的选择。另一方面，如果您想在引擎盖下修修补补，更换化油器（或其他），调整齿轮比，根据您是乡村还是城市驾驶调整燃油空气混合物，安装涡轮增压器和/或者您的家人抱怨您周末在车库待了多长时间 - Hadoop 正是您的理想之选。

恕我直言，大多数（如果不是所有）组织都需要两者。我希望这会有所帮助:-)

【讨论】：

【解决方案4】：

首先，Vanilla Apache Hadoop 是 100% 开源的。但是，如果您需要商业支持和咨询服务，可以使用 Cloudera、MapR、HortonWorks 等公司。

Hadoop 得到了不断壮大的社区的支持，他们不断修复错误并不断进行改进。 Hadoop 存储模型 HDFS 基于 Google 的 GFS 架构，该架构已被证明可以处理大量数据。此外，Hadoop 分析模型 Map Reduce 是基于 Google 的Map Reduce Model。

Hadoop 被 Facebook、Yahoo、Twitter、EBay 等科技巨头用来实时和被动地存储和分析大量数据。

对于您的问题，ETL 系统请阅读这些slides，您将在其中看到。

好的，为什么选择 Hadoop？

开源
经过验证的大量数据存储和分析模型
设置和运行的最低硬件要求。

好的，为什么是 TD？

商业支持

【讨论】：

好的，现在，在你的好答案中，我只缺少“好的，现在为什么选择 Teradata？”
两个挑剔：Hadoop 也有很多商业支持，而 Hadoop MapReduce 用于离线批量分析而不是实时查询。
是的，我提到了hadoop的商业支持，我指的是在Hadoop HDFS之上使用HBase的实时查询，而不是HDFS之上的Map Reduce模型。跨度>