Aster Data 和 Hadoop/Hive 之间的区别答案

【问题标题】：Difference between Aster Data and Hadoop/HiveAster Data 和 Hadoop/Hive 之间的区别
【发布时间】：2015-06-28 09:33:48
【问题描述】：

Aster Data 中的所有组件似乎在 Hadoop 堆栈中都有类似的组件。

AFS => HDFS

SQL-MR => 配置单元

AMC => 安巴里

ACT => 直线/蜂巢终端

用于存储元数据的 Postgres => Hive 可以配置为在任何 RDBMS 中存储元数据

Queen/Worker => NameNode/Datanode

SQL-GR => Giraph

除了提供一揽子预建功能外，还有什么明显不同且在 Hadoop 中不可用的功能？

【问题讨论】：

标签： hadoop hive teradata giraph teradata-aster

【解决方案1】：

你的问题不错，是错的。可能来自 Hadoop 方面，您使用 Hadoop 架构提出了问题，该架构是分层和/或集成的一些独立组件的组装，每个组件都有自己的功能规范、配置和执行环境等。

为什么错了？因为如果比较 Hadoop 和 Oracle 或 SAP 数据库，您不会问同样的问题，对吧？

是的，Aster 方面的每个对应物都与 Hadoop 堆栈产品相匹配 - 不同之处在于 Aster 没有这样的堆栈（至少在 6.x 中）。 Aster 是匹配 Hadoop 堆栈功能但不匹配组件的数据库和分析引擎。

例如，ACT 是一个类似于 SQL*Plus 的命令行实用程序，用于在客户端/服务器接口上运行的 Oracle。它与 Hadoop 之上的 Hive 基础架构完全不同。 Aster File System 以复杂的可插入功能层的形式集成到 Aster 软件中，而不是作为 HDFS 和 Hadoop 的独立框架和软件。

最显着的区别在于由 SQL、SQL/MR 和 SQL/GR 组成的 Aster 分析引擎。这意味着数据存储与其在数据存储上运行的操作符（SQL 语句、SQL/MR 或 SQL/GR 函数）之间没有功能或操作上的差距——它们存在于相同的环境中（配置、执行、维护、支持）。例如，基于列和基于行的表对于对其执行的任何操作都是完全透明的（除非先验和设计定义的约束）。

因此，您的类比确实解释了等式的 Hadoop 方面，但由于 Aster 而没有真正给出适当的说明。

【讨论】：

【解决方案2】：

我认为你不必要地追求细节。问题是概念性的。比如说 Netezza 和 Teradata MPP。在基本概念中，它们是相同的，它们做同样的工作，但它们是两种不同的物理实现，有自己的算法、存储、索引等。

在非常高的级别上，Hive 和 Aster 有相似之处，因为它们都在分布式存储上运行 map reduce。

在非常高级别上的唯一区别是，在非常高级别上，Aster 可以运行典型的 RDMS 查询以及隐式 map reduce，而 Hive 只是 map reduce。

【讨论】：

这是问题所在。不知何故，有人只是在 Hadoop 中工作。很少有概念上新的东西。传统的 MPP RDBMS 人只是在等待并且仍在等待尽可能多地挤奶，因为他们的核心工程师至少早在 20 年前就已经在他们的数据库引擎中实现了所有这些。 New geniouses 刚刚实现了扩展的核心后台进程，但有各种限制。唯一的卖点是它们的成本应该更低。实际上，使用任何 ETL 或 Talend 进行摄取、转换、清理并支持流式传输是有意义的，而不是 PIG。