【发布时间】:2013-06-17 10:10:22
【问题描述】:
我是 hadoop 的新手。
我听说 mapR 是挂载 hadoop HDFS 的更好方法,而不是 fuse。
但是大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。
有人有使用 mapR 安装纯 apache hadoop 的经验吗?
提前致谢。
【问题讨论】:
-
你为什么需要它?这两种都是独立的套装。您的要求到底是什么?
我是 hadoop 的新手。
我听说 mapR 是挂载 hadoop HDFS 的更好方法,而不是 fuse。
但是大多数相关文章只是描述了mapR hadoop而不是纯粹的apache hadoop。
有人有使用 mapR 安装纯 apache hadoop 的经验吗?
提前致谢。
【问题讨论】:
MapR 不仅仅是一种挂载 HDFS 的方法。
MapR 包括 Hadoop 和许多 Apache 生态系统组件以及许多其他非 Apache 组件,例如 Cascading。它还包括包含 Solr 的 LucidWorks。
MapR 还包括一个名为 MaprFS 的 HDFS 重新实现。 MaprFS 具有更高的性能,具有读写语义,允许在写入期间读取,支持事务正确的镜像和快照,没有名称节点,无需联合的 futzing 即可扩展,本质上是 HA,没有 HA NameNode 的所有混乱,并且可以访问通过分布式 NFS 系统。
哦,除了通过 NFS 和 HDFS API 进行 POSIX 式访问之外,MaprFS 还支持 HBase API。
MapR 中的 map-reduce 层已被部分重写,以利用文件系统的极高性能。这就是 MapR 去年秋天打破分钟排序记录的原因。
撇开命名不谈,MapR 包括所有其他发行版所提供的开源软件,以及更多。 “纯 Hadoop”几乎没用。您需要 Pig 和/或 Hive。您可能应该研究级联/烫伤。您可能需要 Mahout。您肯定需要将您的系统连接到遗留数据源和报告系统,这让 NFS 变得简单。
请记住,通过 NFS 或 Fuze 安装 HDFS 不会让您到达您想要的位置。 HDFS 只是没有合适的语义来通过 NFS 或普通文件系统 API 进行访问。就是妥协太多了。
另一方面,借助 MapR,您甚至可以通过 NFS 在集群文件系统之上运行 MySQL 或 Postgress 等数据库。
MapR 提供三个版本。
M3 是免费的,并为您提供所有性能和可扩展性,但将您限制为单个 NFS 服务器,并且没有镜像、快照、卷局部性或 HBase 兼容 API(当然,您可以运行 HBase 本身)。 M3 中的 HA 也已降级,因此需要一个小时才能对某些功能进行故障转移。
M5 在免费试用期结束后需要付费,并为您提供快照、镜像、将某些数据强制到不同拓扑和无限 NFS 服务器的能力。
M7 也需要花钱,并将 HBase API 添加到 M5 可以做的所有事情中。
有关更多信息,请访问 mapr.com。
【讨论】:
总结一下 Ted 所说的,
您不是真的“用 mapR 安装纯 apache hadoop?”。 Hadoop 不应与 HDFS 混淆。虽然它们在对话期间往往可以互换,但 HDFS 明确指的是实际的分布式文件系统(因此 HDFS 中的 DFS)。 HDFS 必须使用特定的 hadoop 命令进行交互,即“hadoop dfs ls /”将列出 hdfs 的根目录。
MapR 超越了 hadoop 为您提供的默认值。一,您可以使用更高效的 maprfs(hdfs 的重写)与文件系统进行交互。您可以做的另一件事实际上是 NFS 挂载 HDFS/MapRFS,以便您可以本地操作文件系统,而无需执行任何特殊操作。它像任何其他 NFS 文件系统一样被处理,除了在这种情况下,它分布在您的集群中。
【讨论】: