【发布时间】:2016-02-11 15:21:41
【问题描述】:
首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。
我有一个现有的 RDBMS,它有大量记录。所以我正在使用
- Scoop - 将数据从 RDBMS 提取到 Hadoop
- Hadoop - 存储平台
- Hive - 数据仓库
- Spark - 由于 Hive 更像是批处理,Hive 上的 Spark 将加快处理速度
- JasperReports - 生成报告。
我所知道的是部署了一个 Hadoop 2 集群,如下所示
- 192.168.X.A - 名称节点
- 192.168.X.B - 第二个名称节点
- 192.168.X.C - Slave1
- 192.168.X.D - Slave2
- 192.168.X.E - Slave3
我的问题是
- 我应该在哪个节点部署 Spark? A 或 B,鉴于我想支持故障转移。这就是为什么我在 B 上配置了一个单独的名称节点。
- 是否应该在每个实例上部署 Spark?工作节点应该是谁?
- 我应该在哪个节点部署 Hive?有没有比 Hive 更好的替代品?
- 我应该如何连接 JasperReports?去哪里?使用 Hive 还是 Spark?
请告诉我一种合适的方式来设计架构?请提供详细的答案。
请注意,如果您能提供任何类似性质的技术指南或案例研究,那将非常有帮助。
【问题讨论】:
标签: hadoop apache-spark hive jasper-reports hadoop2