【发布时间】:2015-02-04 11:11:15
【问题描述】:
我计划在我的基于 Web 的应用程序中实现 Hadoop 框架。但我只是将它托管在本地主机中。我计划将 mapreduce 和 hdfs 实现为分布式文件系统。问题是,我必须做的第一步是什么?我应该从什么开始?我对Hadoop框架进行了深入的研究。了解它是如何工作的,并尝试来自 Internet 的 wordcount 示例。
【问题讨论】:
标签: java hadoop mapreduce hbase hdfs
我计划在我的基于 Web 的应用程序中实现 Hadoop 框架。但我只是将它托管在本地主机中。我计划将 mapreduce 和 hdfs 实现为分布式文件系统。问题是,我必须做的第一步是什么?我应该从什么开始?我对Hadoop框架进行了深入的研究。了解它是如何工作的,并尝试来自 Internet 的 wordcount 示例。
【问题讨论】:
标签: java hadoop mapreduce hbase hdfs
Hadoop 是用于大规模数据处理的分布式框架。你的陈述 “我打算将 mapreduce 和 hdfs 实现为分布式文件系统。” 错了。
Map reduce 是一种可用于分布式文件系统的编程模型。 HDFS 是 hadoop 分布式文件系统。 HDFS 和 MapReduce 一起设置在 hadoop 框架中。
使用 hadoop,您可以离线进行数据处理,即批处理。因此,它可能无法直接在 Web 应用程序中使用。您可以做的是,将您的后端数据库作为 Web 应用程序的 HBase。 Hbase 是一个运行在 hadoop 之上的数据仓库/数据库。
如果您想开始,第一步是设置一个机器集群。可能从 5 个节点开始。否则我会推荐云解决方案。去Amazon EMR。
如果这有帮助,请告诉我!
【讨论】: