【问题标题】:HBase Pseudo distributed or Fully distributed mode?HBase 伪分布式还是完全分布式模式?
【发布时间】:2013-10-05 14:55:37
【问题描述】:

我在开发环境中有一个 linux(ubuntu) 服务器,我也计划在生产环境中使用一个服务器。

我有从 Nutch 2.2.1 生成的爬网数据,我想存储在 HBase 0.90.6 中。因为,我不打算使用多台机器,(我只有一个服务器)在我的情况下,哪种 HBase 模式最适合生产环境 - 伪或完全分布式?

【问题讨论】:

    标签: hadoop hbase hdfs nutch


    【解决方案1】:

    伪分布式模式会更好,因为在独立模式下使用本地 FS。这意味着您无法利用 HDFS+MR 组合提供的并行性。

    【讨论】:

    • 谢谢塔里克!我有点困惑。你的意思是如果我使用伪分布式模式,我可以利用 HDFS+MapReduce 的并行性?
    • 您实际上会在运行伪集群的机器上看到一些并发。默认设置是一个tasktracker最多可以并行运行两个map和reduce任务。尝试通过 mapred.tasktracker.map.tasks.maximummapred.tasktracker.reduce.tasks.maximum 增加,看看是否有显着差异。
    • 再次感谢!我会试试的。我的公司客户只为我们提供了一个生产环境的 linux 服务器,我认为这在不久的将来不会改变。伪分布式模式对于生产环境是否足够好?或者是否需要迁移到完全分布式模式?注意:我根本不打算使用集群。
    • 一点也不。很抱歉,您的公司做出了错误的决定。
    • 从那开始没有什么坏处。但是,一旦您的数据和处理需求更高,您肯定会需要更多汁液:)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-02-07
    相关资源
    最近更新 更多