【问题标题】:Lookup data in Relation database from Hadoop side从 Hadoop 端查找关系数据库中的数据
【发布时间】:2013-10-04 08:01:30
【问题描述】:

我正在将 SSIS 解决方案转换为 Hadoop,以便在数据仓库中进行 ETL 处理。

我期望的系统:
ETL - 登陆和登台(Hadoop)----put-data--->数据仓库(MySQL)

问题是:在转换短语中,我需要从 hadoop 端(pig 或 mapreduce 作业)在 MySQL 中查找数据。有 2 个解决方案:
第一个: 将所有需要从 MySQL 查找的表克隆到 Hadoop。这意味着我们需要维护来自 2 个地方的数据。
2nd: 直接查询 MySQL。我担心 MySQL 服务器会有很多连接。

此问题的解决方案/最佳做法是什么?有没有其他解决办法。

【问题讨论】:

    标签: hadoop data-warehouse etl


    【解决方案1】:

    您必须在 Hadoop 中对您的维度表进行一些表示。根据您对维度数据进行 ETL 的方式,您实际上可能会将它们作为 ETL 的副作用。

    您是否打算在 MySQL 中存储最精细的事实数据?根据我的经验,在存储和分析事实数据方面,Hive + Hadoop 击败了现实数据库。如果您需要实时访问查询结果,则可以通过将汇总结果存储在 MySQL 中来“缓存”它们。

    【讨论】:

      猜你喜欢
      • 2010-11-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-02-10
      • 2012-04-08
      • 1970-01-01
      • 2016-06-10
      相关资源
      最近更新 更多