【问题标题】:hadoop vs teradata what is the differencehadoop vs teradata 有什么区别
【发布时间】:2013-01-15 07:45:04
【问题描述】:

我接触过 Teradata。我从未接触过hadoop,但从昨天开始,我正在对此进行一些研究。通过对两者的描述,它们似乎可以互换,但在一些论文中写道,它们用于不同的目的。但我发现的都是模糊的。我很困惑。

有人体验过这两种方法吗?它们之间的严重区别是什么?

简单示例:我想构建 ETL,它将转换数十亿行原始数据并将它们组织到 DWH。然后对它们进行一些资源昂贵的分析。为什么要使用 TD?为什么选择 Hadoop?或者为什么不呢?

【问题讨论】:

  • 您的原始数据是结构化的还是非结构化的?这个数据的到达率是多少?你能解释一下昂贵的分析是什么意思吗?您对完成此分析的服务水平期望是什么?贵公司是否拥有具备 SQL、R、SAS 和/或预测建模技能的人员?两者之间存在显着差异。它归结为了解您的业务问题是否可以通过数据建模 -> ETL -> 使用 SQL 分析的传统 RDBMS 范式来解决,或者您是否需要 MapReduce 可以提供的更多东西。
  • 原始数据是结构化的。到达率是每天几大块数据。昂贵的分析:CPU 昂贵,一些查询昂贵的数据预先安排(我们可以说是结构化数据的 ETL,以抽象数据用于算法),但这些分析将在某些特定应用程序之外运行,因此不相关。但我的问题的本质是:Teradata 真的很贵。我可以在银行等行业中用 Hadoop 替代 Teradata 吗?
  • 他们俩一起玩。有推荐使用 Teradata 的领域,也有推荐使用 Hadoop 的领域。 Teradata 现在正在迁移到Unified Architecture,因此 Hadoop 和 Teradata 可以集成并相互补充。

标签: database hadoop teradata business-intelligence


【解决方案1】:

我认为 this article 标题为“MapReduce 和并行 DBMS:朋友还是敌人”在描述每种技术最有效的情况方面做得很好。简而言之,Hadoop 非常适合存储非结构化数据和运行并行转换以“清理”传入数据,而 DBMS 擅长快速执行复杂的查询。

【讨论】:

    【解决方案2】:

    Hadoop、带扩展的 Hadoop、RDBMS 功能/属性比较

    我不是这方面的专家,但在 coursera.com 课程“数据科学导论”中,有一个名为:Comparing MapReduce and Databases 的讲座以及关于并行数据库的讲座,位于课程。

    以下是这些讲座中关于 MapReduce 与 RDBMS(不一定是并行 RDMBS)比较的总结。 需要记住的一点是,如果您包含 PIG、Hive 等 Hadoop 扩展,则比较会有所不同。我将放入 () MapReduce 扩展,以添加其中一些功能/属性。

    RDBMS 具有但本地 MapReduce 没有的一些功能/属性:

    • 声明性查询语言 -(Pig, HIVE)
    • 架构(Hive、Pig、DyradLINQ、Hadapt)
    • 逻辑数据独立性
    • 索引(Hbase)
    • 代数优化(Pig、Dryad、HIVE)
    • 缓存/物化视图
    • ACID/交易

    MapReduce(相对于常规 RDBMS 不一定是 Parallel RDMBS)

    • 高可扩展性
    • 容错
    • “单人部署”

    【讨论】:

      【解决方案3】:

      我多次被问到这个问题,我通常给出的答案是汽车类比(这很愚蠢,因为我不是汽车人 - 但它似乎有效)

      • Teradata 是面向大众的汽车/dbms - 它可靠、成熟、运行良好,在您需要时随时可用。很难(与 Hadoop 相比)为基础产品定制和添加功能。
      • Hadoop 是发烧友的汽车/dbms - 它不那么可靠或成熟,只要您注意它,它就可以很好地工作。 (与 Teradata 相比)可以轻松自定义基础产品并为其添加功能。

      换句话说,Teradata 是您放置关键任务流程(运营报告、企业报告、决策支持等)的可靠主力。 Hadoop 是您可以做很多此类事情的地方,但如果您有一天早上来到这里,发现您的监管报告无法生成,因为有人应用了补丁,或者您突然“太”了,请不要感到惊讶许多小文件”的问题。

      回到这个类比,如果您不想太技术化并且制造商的产品(dbms 和/或汽车)开箱即用,Teradata 是一个不错的选择。 另一方面,如果您想在引擎盖下修修补补,更换化油器(或其他),调整齿轮比,根据您是乡村还是城市驾驶调整燃油空气混合物,安装涡轮增压器和/或者您的家人抱怨您周末在车库待了多长时间 - Hadoop 正是您的理想之选。

      恕我直言,大多数(如果不是所有)组织都需要两者。 我希望这会有所帮助:-)

      【讨论】:

        【解决方案4】:

        首先,Vanilla Apache Hadoop 是 100% 开源的。但是,如果您需要商业支持和咨询服务,可以使用 Cloudera、MapR、HortonWorks 等公司。

        Hadoop 得到了不断壮大的社区的支持,他们不断修复错误并不断进行改进。 Hadoop 存储模型 HDFS 基于 Google 的 GFS 架构,该架构已被证明可以处理大量数据。此外,Hadoop 分析模型 Map Reduce 是基于 Google 的Map Reduce Model

        Hadoop 被 Facebook、Yahoo、Twitter、EBay 等科技巨头用来实时和被动地存储和分析大量数据。

        对于您的问题,ETL 系统请阅读这些slides,您将在其中看到。

        好的,为什么选择 Hadoop?

        1. 开源
        2. 经过验证的大量数据存储和分析模型
        3. 设置和运行的最低硬件要求。

        好的,为什么是 TD?

        1. 商业支持

        【讨论】:

        • 好的,现在,在你的好答案中,我只缺少“好的,现在为什么选择 Teradata?”
        • 两个挑剔:Hadoop 也有很多商业支持,而 Hadoop MapReduce 用于离线批量分析而不是实时查询。
        • 是的,我提到了hadoop的商业支持,我指的是在Hadoop HDFS之上使用HBase的实时查询,而不是HDFS之上的Map Reduce模型。跨度>
        猜你喜欢
        • 2011-05-23
        • 1970-01-01
        • 1970-01-01
        • 2015-03-05
        • 2014-07-01
        • 2021-07-16
        • 2013-03-18
        • 1970-01-01
        相关资源
        最近更新 更多