安装hadoop并编写map reduce程序答案

【问题标题】：installing hadoop and writing map reduce program安装hadoop并编写map reduce程序
【发布时间】：2026-01-16 06:10:01
【问题描述】：

对于一个主题，我得到了这个任务。

制作hadoop集群并编写map reduce程序。

我有一台配备 4GB 内存和 i3 处理器的笔记本电脑，我从 cloudera 网站下载了 vmware 映像。但是预配置的虚拟机本身需要 4GB RAM。

作业正文说

以伪分布式模式安装 Cloudera 的 Hadoop Distribution (http://www.cloudera.com/hadoop/) 或使用 Cloudera 提供的 VMWare Image 来熟悉 Hadoop，尤其是分布式文件系统 HDFS 和 Java 中 MapReduce 程序的实现。”

我从 cloudera 网站下载了 vmware 映像，但预配置的虚拟机本身需要 4GB RAM。

我尝试将虚拟机内存的大小从 4GB 减少到 1GB，但效果不佳；我的意思是我无法运行 cloudera 虚拟机。

我有很多 mapreduce 和 java 程序，任务要求我去做。我无法理解其中任何一个。喜欢

在多台机器上执行“grep”。
计算文件的词频分布在 hadoop 集群等中的多台机器上。

我想知道如何设置 hadoop 使其在 windows8.1 机器上运行这样我就可以运行这些程序了

【问题讨论】：

索取书籍、教程和其他场外资源被认为是 * 的题外话。尽管“Hadoop：权威指南”被认为是“Hadoop 圣经”

标签： java hadoop mapreduce

【解决方案1】：

Cloudera VM 需要 6-8GB 才能正常运行。

当我在大学学习 Hadoop 课程时，我们需要为所有小于 8GB 的计算机购买更多 RAM，我们有 i5，但 VM 仍然很慢。

即使只是安装 Hadoop 并单独运行服务在 VM 之外，默认情况下至少需要 4GB。这还不包括您的操作系统和其他服务（您的浏览器和操作系统可能已经各自占用了 1GB）。

就实际在 Windows 上安装 Hadoop 而言，我不推荐它，但粗略的步骤是

安装 Java。添加JAVA_HOME作为环境变量
在您的 Windows 机器上安装并运行 SSH 服务器。确保您可以使用 PuTTy 连接到 localhost:22，例如
然后使用 Apache 站点下载和配置 Hadoop，而不是其他可能过时的随机教程。从Single Node 开始，然后配置伪分布式。解压 Hadoop 下载后，添加 HADOOP_PREFIX 和 HADOOP_CONF_DIR=%HADOOP_PREFIX%/conf 作为两个环境变量

在多台机器上执行“grep”

统计文件的词频

这两个都是文档中给出的示例。不确定您是否需要实际编写该代码。

FWIW，您实际上不需要运行 Hadoop 集群来运行 MapReduce。默认的 Hadoop 配置将从您的单个本地文件系统中读取。此外，你的虚拟机反正是单机，所以“多机运行”的要求没有多大意义。

【讨论】：

grep 源码在这里github.com/apache/hadoop/blob/trunk/hadoop-mapreduce-project/…