【问题标题】:installing hadoop and writing map reduce program安装hadoop并编写map reduce程序
【发布时间】:2026-01-16 06:10:01
【问题描述】:

对于一个主题,我得到了这个任务。

制作hadoop集群并编写map reduce程序。

我有一台配备 4GB 内存和 i3 处理器的笔记本电脑,我从 cloudera 网站下载了 vmware 映像。但是预配置的虚拟机本身需要 4GB RAM。

作业正文说

以伪分布式模式安装 Cloudera 的 Hadoop Distribution (http://www.cloudera.com/hadoop/) 或使用 Cloudera 提供的 VMWare Image 来熟悉 Hadoop,尤其是分布式文件系统 HDFS 和 Java 中 MapReduce 程序的实现。”

我从 cloudera 网站下载了 vmware 映像,但预配置的虚拟机本身需要 4GB RAM。

我尝试将虚拟机内存的大小从 4GB 减少到 1GB,但效果不佳;我的意思是我无法运行 cloudera 虚拟机。

我有很多 mapreduce 和 java 程序,任务要求我去做。我无法理解其中任何一个。喜欢

  • 在多台机器上执行“grep”。
  • 计算文件的词频分布在 hadoop 集群等中的多台机器上。

我想知道如何设置 hadoop 使其在 windows8.1 机器上运行 这样我就可以运行这些程序了

【问题讨论】:

  • 索取书籍、教程和其他场外资源被认为是 * 的题外话。尽管“Hadoop:权威指南”被认为是“Hadoop 圣经”

标签: java hadoop mapreduce


【解决方案1】:

Cloudera VM 需要 6-8GB 才能正常运行。

当我在大学学习 Hadoop 课程时,我们需要为所有小于 8GB 的​​计算机购买更多 RAM,我们有 i5,但 VM 仍然很慢。

即使只是安装 Hadoop 并单独运行服务在 VM 之外,默认情况下至少需要 4GB。这还不包括您的操作系统和其他服务(您的浏览器和操作系统可能已经各自占用了 1GB)。


就实际在 Windows 上安装 Hadoop 而言,我不推荐它,但粗略的步骤是

  1. 安装 Java。添加JAVA_HOME作为环境变量
  2. 在您的 Windows 机器上安装并运行 SSH 服务器。确保您可以使用 PuTTy 连接到 localhost:22,例如
  3. 然后使用 Apache 站点下载和配置 Hadoop,而不是其他可能过时的随机教程。从Single Node 开始,然后配置伪分布式。解压 Hadoop 下载后,添加 HADOOP_PREFIXHADOOP_CONF_DIR=%HADOOP_PREFIX%/conf 作为两个环境变量

  • 在多台机器上执行“grep”
  • 统计文件的词频

这两个都是文档中给出的示例。不确定您是否需要实际编写该代码。


FWIW,您实际上不需要运行 Hadoop 集群来运行 MapReduce。默认的 Hadoop 配置将从您的单个本地文件系统中读取。此外,你的虚拟机反正是单机,所以“多机运行”的要求没有多大意义。