【发布时间】:2013-10-04 08:01:30
【问题描述】:
我正在将 SSIS 解决方案转换为 Hadoop,以便在数据仓库中进行 ETL 处理。
我期望的系统:
ETL - 登陆和登台(Hadoop)----put-data--->数据仓库(MySQL)
问题是:在转换短语中,我需要从 hadoop 端(pig 或 mapreduce 作业)在 MySQL 中查找数据。有 2 个解决方案:
第一个: 将所有需要从 MySQL 查找的表克隆到 Hadoop。这意味着我们需要维护来自 2 个地方的数据。
2nd: 直接查询 MySQL。我担心 MySQL 服务器会有很多连接。
此问题的解决方案/最佳做法是什么?有没有其他解决办法。
【问题讨论】:
标签: hadoop data-warehouse etl