HBase 伪分布式还是完全分布式模式？答案

【问题标题】：HBase Pseudo distributed or Fully distributed mode?HBase 伪分布式还是完全分布式模式？
【发布时间】：2013-10-05 14:55:37
【问题描述】：

我在开发环境中有一个 linux(ubuntu) 服务器，我也计划在生产环境中使用一个服务器。

我有从 Nutch 2.2.1 生成的爬网数据，我想存储在 HBase 0.90.6 中。因为，我不打算使用多台机器，（我只有一个服务器）在我的情况下，哪种 HBase 模式最适合生产环境 - 伪或完全分布式？

【问题讨论】：

【解决方案1】：

伪分布式模式会更好，因为在独立模式下使用本地 FS。这意味着您无法利用 HDFS+MR 组合提供的并行性。

【讨论】：

谢谢塔里克！我有点困惑。你的意思是如果我使用伪分布式模式，我可以利用 HDFS+MapReduce 的并行性？
您实际上会在运行伪集群的机器上看到一些并发。默认设置是一个tasktracker最多可以并行运行两个map和reduce任务。尝试通过 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum 增加，看看是否有显着差异。
再次感谢！我会试试的。我的公司客户只为我们提供了一个生产环境的 linux 服务器，我认为这在不久的将来不会改变。伪分布式模式对于生产环境是否足够好？或者是否需要迁移到完全分布式模式？注意：我根本不打算使用集群。
一点也不。很抱歉，您的公司做出了错误的决定。
从那开始没有什么坏处。但是，一旦您的数据和处理需求更高，您肯定会需要更多汁液:)