【发布时间】:2015-09-25 17:56:00
【问题描述】:
我有压缩文件,它包含 8 个大小为 5-10kb 的 xml 文件。我将这些数据用于测试目的。我编写了一个仅地图程序来解压缩压缩文件。我wrote program in MR2 and using Hadoop 2.7.1 in psuedo distributed mode。我使用sbin/start-dfs.sh 命令启动集群。我能够在几秒钟内看到文件系统中的解压缩输出,但处理将持续 5-6 分钟。不知道为什么?
MR 程序将文件解压到这个阶段,我可以查看/下载这些文件。
无法理解我的 mapreduce 程序在这里做什么处理。我am using MR2 API in my code and why it is using MR1 API(mapred) here? 当我有 128mb 的压缩文件并在 5-10 分钟内解压缩而其余时间忙于执行其他任务时,情况变得更糟。
我的性能无法接受,需要了解处理 hadoop 在第二个屏幕截图中的作用。
请帮助我了解是安装问题、我的程序问题还是其他问题?
【问题讨论】:
-
你能分享一下你正在使用的代码sn-p吗?