【发布时间】:2016-06-06 17:11:13
【问题描述】:
我正在基于我的 Web 应用程序数据构建一个大数据分析解决方案。
我有什么ETL的逻辑架构解决方案是:-
1. 提取 - 首先从 MongoDB 中提取数据
2. Transform - 在应用多个转换的地方转换数据。例如数据转换、数据格式化、加入扁平化文档 BSON 类型数据
3. 加载 - 转换后的数据最终会推送到 Elastic Search
4. 我可以在 ES 中运行我的机器学习并在转换后的数据上构建统计模型以生成见解
5. 我的 UI 将访问这些生成的见解。
主要问题在上述第 2 步,即转换步骤。我经历了 MongoDB 河流、Logstash ETL,但如果我想做只有在 Spark 中才有可能进行的大量转换怎么办。
目前市场上针对此问题的最佳解决方案是什么?
从数据大小的角度来看,每天的累积量以 GB 为单位,而 MongoDB 中有数百万个文档。
为了限制我的开发范围,我选择了 ES 作为我的分析后端,而 MongoDB 作为我的主数据库。
【问题讨论】:
标签: mongodb elasticsearch apache-spark logstash etl