【问题标题】:how to extract data from mongo collection for data warehouse use如何从 mongo 集合中提取数据以供数据仓库使用
【发布时间】:2013-06-17 08:42:05
【问题描述】:

我的公司开始使用 mongo,我们开始思考从 mongodb 中提取数据并将其发送到我们的数据仓库的最佳方法是什么。

我的问题集中在流程的提取部分。正如我所看到的,最好的方法是在构建于 mongo 之上的服务上公开 API,ETL 过程(由数据仓库中的作业调用)将执行一些特定的查询,这些查询可能会查询对于一组时间(即 - 每条记录的开始日期和结束日期)。

这听起来对吗?或者我错过了什么,或者可能有比这更好的方法?

最初我正在考虑每隔 X 持续时间执行一次 mongoexport,但根据文档,它似乎性能不太好。

提前致谢!

【问题讨论】:

    标签: mongodb etl


    【解决方案1】:

    【讨论】:

    • 嗨,这不是很有帮助,因为它没有回答我的问题。
    • 我的建议是不要将 db 引擎用作 etl 工具。通过 carte 服务器或 cron 使用kettle 和调度。打开kettle 4.4,使用转换步骤Big Data/MongoDb Input and Output。
    • 不过,如果我理解您的建议 - 调度引擎会发出一个 mongo 查询,对吗?
    • 最常用的方法是将所有行导出到kettle(使用从Mongodb 导入的kettle 步骤),然后在kettle 中进行数据处理(查询或其他)。因此,您不必在“热”中使用真实数据。只是这些数据的 FRESH DUMP
    • 在生产和块平衡时从 mongo 导出数据可能会出现问题 + 导出会降低性能。另一个问题是你怎么知道你已经导出了哪些数据?
    【解决方案2】:

    我正在使用 Alteryx 设计器通过专用连接器从 MongoDB 中提取数据,并准备我的数据以加载到 Tableau 中,中间有可选的数据准备。 效果很好! ALteryx 可以写入大多数数据库...

    【讨论】:

      猜你喜欢
      • 2013-12-30
      • 1970-01-01
      • 2021-05-05
      • 1970-01-01
      • 2016-07-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-18
      相关资源
      最近更新 更多