什么是hadoop（单和多）节点、spark-master 和spark-worker？答案

【问题标题】：What is hadoop (single and multi) nodes, spark-master and spark-worker?什么是hadoop（单和多）节点、spark-master 和spark-worker？
【发布时间】：2016-08-30 22:03:37
【问题描述】：

我想了解以下术语：

hadoop（单节点和多节点）火花大师火花工人名称节点数据节点

到目前为止，我所了解的是 spark master 是作业执行者，负责处理所有 spark 工作者。而 hadoop 是 hdfs（我们的数据所在的地方），并且 spark 工作人员根据给他们的工作从那里读取数据。如果我错了，请纠正我。

我也想了解namenode和datanode的作用。虽然我知道namenode的作用（拥有所有datanode的元数据信息，最好只有一个，但可以是两个）并且datanode可以是多个并且拥有数据。

datanodes是同一个hadoop节点吗？

【问题讨论】：

标签： apache-spark hadoop hdfs

【解决方案1】：

SPARK 架构：

Spark 使用master/worker architecture。有一个驱动程序与一个称为 master 的协调器对话，该协调器管理执行器运行的工作人员。

驱动程序和执行程序在它们自己的 Java 进程中运行。您可以在同一台（水平集群）或单独的机器（垂直集群）或混合机器配置中运行它们。

节点不过是物理机器。

Hadoop NameNode 和 DataNode：

HDFS 具有主/从架构。 HDFS 集群由单个 NameNode 组成，这是一个管理文件系统命名空间并控制客户端对文件的访问的主服务器。此外，还有许多 DataNode，通常集群中的每个节点一个，它们管理连接到它们运行的节点的存储。 HDFS 公开了一个文件系统命名空间，并允许将用户数据存储在文件中。在内部，一个文件被分成一个或多个块，这些块存储在一组 DataNode 中。 NameNode 执行文件系统命名空间操作，例如打开、关闭和重命名文件和目录。它还确定块到 DataNode 的映射。 DataNode 负责处理来自文件系统客户端的读取和写入请求。 DataNode 还根据 NameNode 的指令执行块创建、删除和复制。

是的，DataNodes 是 Hadoop 集群中的从节点。

请参阅文档了解更多详情。

【讨论】：

使用Spark读写HDFS文件时，Spark worker节点和HDFS数据节点一样吗？

【解决方案2】：

Hadoop 单节点 具有 1 个 Namenode（主）和 1 个 Datanode（从）的 Hadoop 集群。 Namenode 拥有所有元数据，并分配给从属数据节点，其中存储数据并完成处理。

Hadoop 多节点 具有 1 个 Namenode（主）和 n 个 Datanode（从）的 Hadoop 集群

spark master和HDFS中的Namenode一样

spark worker 与 datanode 相同，但 spark worker 仅用于处理而不是存储数据。

把事情放在上下文中（简单） - 如果有 1 个 Namenode 和 2 个 datanode（1GB 内存）集群。一个 2 GB 的文件将被拆分并存储在数据节点上。与 spark 作业类似，将拆分以并行处理各个数据节点（工人）上的这些数据。

【讨论】：