【问题标题】:Setting up environment for Hadoop datawarehousing (Hive)为 Hadoop 数据仓库 (Hive) 设置环境
【发布时间】:2012-09-25 06:15:01
【问题描述】:

我是 Hadoop 新手,正在尝试在数据仓库和分析方面学习它。

有人可以建议我如何设置我的练习机,尤其是关于 1.开始学习所需的机器/节点数 2.是否建议在Windows上设置? 3.需要安装什么软件 4.测试/样本数据的可用性

我还想就使用 Hive 执行 BI 操作的最佳方式获得建议。

谢谢。

【问题讨论】:

    标签: hive data-warehouse business-intelligence


    【解决方案1】:

    如果您对 hadoop 机器更感兴趣,我建议您下载 cloudera VM。另一种立即开始的方法 - 使用亚马逊 EMR(弹性 mapreduce)。有一个选项可以在那里创建交互式 hive 集群并开始使用存储在 S3 中的数据集。
    关于节点的数量 - 这取决于目标。如果您有兴趣“感受”一些 hadoop 性能 - 至少尝试 4-6 个节点。
    如果您无权访问组织的内部 hadoop / hive 集群,上面列出的两种方式都很好。即使在这种情况下 - 我建议在使用共享环境之前尝试与他们一起动手实践。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-02-13
      • 1970-01-01
      • 2012-12-01
      • 2016-12-26
      相关资源
      最近更新 更多