没有集群的 Hadoop MapReduce - 有可能吗？答案

【问题标题】：Hadoop MapReduce without cluster - is it possible?没有集群的 Hadoop MapReduce - 有可能吗？
【发布时间】：2018-10-22 07:29:50
【问题描述】：

是否可以在没有集群的情况下运行 Hadoop MapReduce 程序？我的意思是，出于教育目的，我只是想稍微摆弄一下 map/reduce，所以我只想在我的计算机上运行几个 MapReduce 程序，我不需要将任何工作拆分到多个节点等...正如我所说，不需要任何性能提升或任何东西，只是为了教育目的。我还需要运行 VM 来实现这一点吗？我正在使用 IntelliJ Ultimate，我正在尝试运行简单的 WordCount.. 我相信我已经设置了所有必要的库和整个项目，并且在运行时我得到了这个异常：

Exception in thread "main" java.io.IOException: Cannot initialize Cluster.
Please check your configuration for mapreduce.framework.name and the correspond server addresses.

我发现一些帖子说整个 map/reduce 过程可以在 jvm 上本地运行，但还没有找到方法。

【问题讨论】：

hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/…

标签： java hadoop mapreduce

【解决方案1】：

“伪分布式”模式全安装教程具体带你完成单节点Hadoop集群的安装

还有the "Mini cluster"，您会发现一些 Hadoop 项目用于单元和集成测试

我觉得你只是在问你是否需要 HDFS 或 YARN，但答案是否定的，Hadoop 可以从磁盘读取 file:// 前缀文件路径，无论是否有集群

请记住，分裂不仅在节点之间，而且在单台计算机的多个内核之间。如果您不进行任何并行处理，那么除了学习 API 语义之外，没有太多理由使用 Hadoop。

_{除此之外：从“教育的角度”来看，到目前为止，在我的职业生涯中，我发现编写 Spark 的人比编写 MapReduce 的人多，而且专门要求 MapReduce 代码的工作并不多}

【讨论】：