【问题标题】:Azure HDInsight : what is head node in a hadoop cluster?Azure HDInsight:hadoop 集群中的头节点是什么?
【发布时间】:2013-11-14 05:14:20
【问题描述】:

我刚刚在 HDInsight 中设置了一个 Hadoop 集群并尝试开始使用 Hadoop。我已经在集群上启用了远程登录并登录到它。我已将要处理的数据从我的桌面复制到此框中。文档将此框称为头节点,并有一个额外的步骤,它讨论将数据复制到 hadoop 集群。这让我很困惑。

我有以下问题:

  1. 当我将数据从桌面复制到我登录的盒子时,它实际上没有将数据复制到 hadoop 吗?

  2. 第一次复制操作与第二次有何不同?

  3. 什么是 Hadoop 中的头节点?

【问题讨论】:

  • 只是好奇为什么您没有将答案标记为正确答案。有什么遗漏吗?我发现问题和答案信息量很大。

标签: azure hadoop azure-hdinsight


【解决方案1】:

HDInsight 群集中的头节点是运行构成 Hadoop 平台的一些服务的机器,包括名称节点和作业跟踪器。从广义上讲,哪个控制数据在哪里,以及在哪里进行计算。

要使用 HDInsight,您实际上不需要登录到此头节点,也不需要需要使用远程桌面来使用它。我建议使用 powershell 方法 http://blogs.msdn.com/b/carlnol/archive/2013/06/07/managing-your-hdinsight-cluster-with-powershell.aspx 为您提供了一个很好的设置指南。

就将数据复制到集群而言,这与将数据复制到头节点(只是一台机器)不同。设置 HDInsight 群集时,还将其链接到 Azure 存储帐户。您需要将数据上传到 blob 存储帐户以使其可供集群访问。有许多很好的工具可以帮助解决这个问题,我推荐Azure Explorer - 披露:我为制作它的人工作,但它是免费的:)。

【讨论】:

  • 名称节点和作业跟踪器在同一个盒子上运行?这在典型的 hadoop 基础设施中是常见的吗?另外,拥有多个名称节点以避免单点故障不是很常见吗? HDInsight 不适合这个吗?
  • 您当然可以将名称节点和作业跟踪器分开,并且可能应该分开,具体取决于集群的规模,但对于 HDInsight 上合理大小的东西,这很好。可以有一个辅助名称节点,它是一种热备用,但在 Hadoop 版本
  • 谢谢。对 Hadoop 来说非常新,并尝试在 Azure 上运行第一次运行。我正在阅读 Hadoop,特别是 Namenodes 和 Datanodes。这些是否分别与 Azure 的头节点和工作节点相同? (补充:题外话,但如果有人对初学者有任何好的文档,我会非常感激。到目前为止还没有运气。)
  • jobtracker 的概念基本上适用于'旧'hadoop (v1)。现在大多数情况下,包括 HDInsight 在内的每个人都在运行 Hadoop 2。所以不会有 jobtracker,而是有资源管理器。这是 YARN 的一部分,在 Hadoop2 中扮演资源管理层的角色。这里没有 jobtracker 和 tasktracker。除了提供资源管理和调度功能的资源管理器之外,YARN 中还有其他一些东西。
猜你喜欢
  • 1970-01-01
  • 2023-03-27
  • 2015-12-04
  • 2019-09-24
  • 1970-01-01
  • 2017-11-02
  • 2020-01-17
  • 1970-01-01
  • 2021-12-04
相关资源
最近更新 更多