如何在现有系统中实现 Hadoop 框架答案

【问题标题】：How to implement Hadoop framework into existing system如何在现有系统中实现 Hadoop 框架
【发布时间】：2015-02-04 11:11:15
【问题描述】：

我计划在我的基于 Web 的应用程序中实现 Hadoop 框架。但我只是将它托管在本地主机中。我计划将 mapreduce 和 hdfs 实现为分布式文件系统。问题是，我必须做的第一步是什么？我应该从什么开始？我对Hadoop框架进行了深入的研究。了解它是如何工作的，并尝试来自 Internet 的 wordcount 示例。

【问题讨论】：

标签： java hadoop mapreduce hbase hdfs

【解决方案1】：

Hadoop 是用于大规模数据处理的分布式框架。你的陈述 “我打算将 mapreduce 和 hdfs 实现为分布式文件系统。” 错了。

Map reduce 是一种可用于分布式文件系统的编程模型。 HDFS 是 hadoop 分布式文件系统。 HDFS 和 MapReduce 一起设置在 hadoop 框架中。

使用 hadoop，您可以离线进行数据处理，即批处理。因此，它可能无法直接在 Web 应用程序中使用。您可以做的是，将您的后端数据库作为 Web 应用程序的 HBase。 Hbase 是一个运行在 hadoop 之上的数据仓库/数据库。

如果您想开始，第一步是设置一个机器集群。可能从 5 个节点开始。否则我会推荐云解决方案。去Amazon EMR。

如果这有帮助，请告诉我！

【讨论】：

感谢您的指正。我的陈述看起来令人困惑……是的！这很有用！我需要更多地学习和练习:)