【发布时间】:2016-04-28 04:07:34
【问题描述】:
关于 Hadoop 的几个问题。请分享您的经验。
1)如果我必须在hadoop集群上存储一个1TB的文件,假设复制因子为3,是否意味着我已经上传了一个3TB的文件?
2)客户端机器是如何配置到Hadoop集群的?请提供需要修改的文件的细节。
3)Hadoop集群与传统的网络分布式系统有何不同? 我们知道传统的分布式系统也有主从架构。但是在执行任何任务时,从属之间存在这种通信。 问题是Hadoop DataNode之间是否存在类似的通信机制?
4)如果Hadoop DataNodes之间没有通信,一旦map任务完成,Sort和Shuffle阶段如何在DataNodes上进行数据传输?
5) 这是关于 Cloudera QuickStart VM 5.5,当我在终端窗口中执行“sudo jps”时,没有与 JobTracker 和 TaskTracker 相关的进程正在运行 我的 MR 作业正在提交,输出被写入 HDFS。 这是因为我输入“sudo jps”命令时出现了正在运行的进程名称“JobHistoryServer”吗?
6) 假设 JobTracker 将 MR 作业提交给已经在运行这么多任务且无法再接受的 DataNode(DN1),具有 Rack Awareness 知识的 NameNode 会将这个 MR 作业委托给相同的其他节点机架。假设新节点是 DN2 现在,问题是 DN2 是否会从 DN1 复制块的数据并运行 MR 作业,还是只是代表 DN1 运行 MR 作业,因为数据块在 Hadoop 分布式集群中是可见的?
提前感谢您的回答。
最好, 斯里
【问题讨论】:
-
我了解您是 StackOverflow 的新手,但请将您的帖子限制在每个问题上