【问题标题】:Hadoop 2.7, Spark, Hive, JasperReports, Scoop - ArchitecutureHadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构
【发布时间】:2016-02-11 15:21:41
【问题描述】:

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。

我有一个现有的 RDBMS,它有大量记录。所以我正在使用

  • Scoop - 将数据从 RDBMS 提取到 Hadoop
  • Hadoop - 存储平台
  • Hive - 数据仓库
  • Spark - 由于 Hive 更像是批处理,Hive 上的 Spark 将加快处理速度
  • JasperReports - 生成报告。

我所知道的是部署了一个 Hadoop 2 集群,如下所示

  • 192.168.X.A - 名称节点
  • 192.168.X.B - 第二个名称节点
  • 192.168.X.C - Slave1
  • 192.168.X.D - Slave2
  • 192.168.X.E - Slave3

我的问题是

  • 我应该在哪个节点部署 Spark? A 或 B,鉴于我想支持故障转移。这就是为什么我在 B 上配置了一个单独的名称节点。
  • 是否应该在每个实例上部署 Spark?工作节点应该是谁?
  • 我应该在哪个节点部署 Hive?有没有比 Hive 更好的替代品?
  • 我应该如何连接 JasperReports?去哪里?使用 Hive 还是 Spark?

请告诉我一种合适的方式来设计架构?请提供详细的答案。

请注意,如果您能提供任何类似性质的技术指南或案例研究,那将非常有帮助。

【问题讨论】:

    标签: hadoop apache-spark hive jasper-reports hadoop2


    【解决方案1】:

    你已经明白了,已经!我所有的答案都只是一般性意见,可能会根据数据、要执行的操作的风格而发生巨大变化。问题还暗示此类操作的数据和结果是关键任务,我假设如此。

    Hive 上的 Spark 会加快速度

    不一定正确。轶事证据,this post (by cloudera),证明完全相反。实际上,反之亦然,即Hive on Spark

    我应该在哪个节点部署 Spark? A 或 B,鉴于我想支持故障转移。这就是为什么我在 B 上配置了一个单独的名称节点。 我应该在每个实例上部署 Spark 吗?工作节点应该是谁?

    绝对 - 在大多数情况下无论如何。设置A或B为master,其余都可以是worker节点。如果您不想在架构中使用 SPOF,请参阅 high availability section of spark documentation,这需要一些额外的工作。

    有没有比 Hive 更好的替代品?

    这个既是主观的又是特定于任务的。如果 SQL 查询感觉自然并且适合任务,还有 Cloudera 推广的 Impala,它声称执行速度比 Hive 快一个数量级。但在 Apache Hadoop 生态系统中有点陌生。使用 Spark——如果你能很好地输入一些 python 或 scala——你可以进行类似 SQL 的查询,同时仍然享受这些语言提供的表达能力。

    我应该如何连接 JasperReports?去哪里?要 Hive 还是 Spark?

    不知道这个。

    【讨论】:

    • +1 为答案。我有几个后续问题。 1. 如果我在节点 A 上配置了 Spark,但它宕机了怎么办。 Hadoop 将工作,因为它有 B(第二个名称节点)。火花会发生什么? 2. 你有什么在其上部署 Spark 集群和 hive 的指南吗?
    • 实际上这两个都在帖子中给出的链接中得到了回答。 See high availability section from these spark documentThese two 的帖子应该让您对 Hive on spark 有所了解。另请查看 Cloudera CDH 和 Apache Ambari,它们是集群管理平台,可以减轻您的负担。
    • @Techie,您好,我们目前正在寻找一种架构,并且在过去 5 年内,您构建的 EDW 可能已经成熟。根据您的经验,您是否推荐您在问题中提到的设置或任何其他替代方案?谢谢。
    猜你喜欢
    • 1970-01-01
    • 2016-10-21
    • 1970-01-01
    • 2016-01-14
    • 2016-08-07
    • 2017-02-03
    • 2021-03-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多