【发布时间】:2016-10-12 00:59:43
【问题描述】:
我有一个关于HDFS读/写过程的问题:
假设我们有一个客户端(为了示例,假设客户端是一个 HADOOP 映射进程)请求从 HDFS 读取文件或将文件写入 HDFS,这是实际从/向 HDFS 进行读/写的进程?
我知道Namenode有一个进程,每个Datanode都有一个进程,他们对系统的一般职责是什么,但我在这种情况下感到困惑。
是客户端本身的进程,还是 HDFS 中的另一个进程,创建并专用于该特定客户端,以便访问和读取/写入 HDFS?
最后,如果第二个答案是真的,有没有可能让这个进程暂停一段时间?
我做了一些研究,发现最重要的解决方案是 hadoop API 中的 Oozie 和 JobControl 类。
但是,由于我不确定上述工作流程,因此我不确定我正在使用这些工具暂停和恢复哪个流程。
是客户端的进程还是为了满足客户端的请求而运行在 HDFS 中的进程?
【问题讨论】:
标签: hdfs hadoop2 hadoop-2.7.2