HIVE 或 PIG 作为 NETEZZA 的替代品答案

【问题标题】：HIVE or PIG as alternative for NETEZZAHIVE 或 PIG 作为 NETEZZA 的替代品
【发布时间】：2016-06-14 01:13:49
【问题描述】：

在我的组织中，我们正在尝试使用 HIVE 或 PIG 作为替代方案

主要目标：减少处理时间
NETEZZA 处理时间：90 分钟
期待结束进程：30 分钟内

流程是如何工作的：
进程即将维护增量历史。有两个表history_table和new_table。历史表维护总历史和新 _table 有更新记录。所以每天更新的记录都会添加到历史表中。进程有非常复杂的存储过程（加入/删除/插入/更新）
相同的过程正在应用于多个表。每个历史表都有近数十亿条记录。

我的疑惑：

【问题讨论】：

一个UDF不是作为存储过程；这是一个函数。
Hive 和 Pig 都不擅长连接。甚至是简单的。
King Games 有一个有趣的参考：fr.slideshare.net/huguk/king-hug-uk >> 他们将 ETL 从 Hive 迁移到分析数据库（目前是 Exasol），因为它只是没有工作.
就“动态生成创建语句和异常处理”而言，我认为 Pig 或 Hive 对其中任何一个都没有很好的支持。至于 UDF，Pig 也有 UDF。他们表现更好吗？真的取决于您尝试优化工作负载的努力程度。
您要处理多少数据？你有多少台机器？

【解决方案1】：

使用 impala，它是 Hadoop 上的 Netezza，尝试 Kudu 实时和批处理或使用 HBase 实时和 impala 批处理，但您可以使用 impala 查询 HBase

【讨论】：