【问题标题】:Is there a significant performance difference between Pseudo-Distributed and Fully-distributed mode in Hadoop?Hadoop 中的伪分布式和完全分布式模式之间是否存在显着的性能差异?
【发布时间】:2018-04-01 05:26:34
【问题描述】:

我正在阅读 Hadoop 的文档,我发现了这个:

“独立模式和伪分布式模式都是为了小规模测试而提供的”。

我有 2 个问题。

首先,多大才算小规模,具体来说,我打算用最多32个节点,这样可以伪分布式运行吗?

其次,即使是小规模,伪分布式和全分布式模式之间是否存在性能差异?因为,我在我的 Mac 上运行 hadoop,我很难找到一个真正的集群系统。有什么需要注意的吗?

【问题讨论】:

    标签: hadoop


    【解决方案1】:

    最多32个节点,我可以在伪分布式模式下运行吗?

    伪分布式特指你只有一个节点。这意味着所有 Hadoop 服务都能够像在外部接口(不是所有 localhost)连接上一样相互通信,并且使用 HDFS,而不仅仅是本地文件系统。

    为了创建“分布式模式”集群,您可以使用正确的配置将其他节点添加到您的单个节点。提示:Apache Ambari 将使这个过程变得更加容易。

    但是,HDFS 默认情况下希望能够复制块至少 3 次,并且为了适应这些服务的停机时间,至少 5 个节点是一个不错的选择。我还建议您使用 3-5 个 Zookeeper 服务器的独立安装在集群中设置高可用性

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-02-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多