从 Hadoop 端查找关系数据库中的数据答案

【问题标题】：Lookup data in Relation database from Hadoop side从 Hadoop 端查找关系数据库中的数据
【发布时间】：2013-10-04 08:01:30
【问题描述】：

我正在将 SSIS 解决方案转换为 Hadoop，以便在数据仓库中进行 ETL 处理。

我期望的系统：
ETL - 登陆和登台（Hadoop）----put-data--->数据仓库（MySQL）

问题是：在转换短语中，我需要从 hadoop 端（pig 或 mapreduce 作业）在 MySQL 中查找数据。有 2 个解决方案：
第一个： 将所有需要从 MySQL 查找的表克隆到 Hadoop。这意味着我们需要维护来自 2 个地方的数据。
2nd: 直接查询 MySQL。我担心 MySQL 服务器会有很多连接。

此问题的解决方案/最佳做法是什么？有没有其他解决办法。

【问题讨论】：

标签： hadoop data-warehouse etl

【解决方案1】：

您必须在 Hadoop 中对您的维度表进行一些表示。根据您对维度数据进行 ETL 的方式，您实际上可能会将它们作为 ETL 的副作用。

您是否打算在 MySQL 中存储最精细的事实数据？根据我的经验，在存储和分析事实数据方面，Hive + Hadoop 击败了现实数据库。如果您需要实时访问查询结果，则可以通过将汇总结果存储在 MySQL 中来“缓存”它们。

【讨论】：