【发布时间】:2012-09-25 06:15:01
【问题描述】:
我是 Hadoop 新手,正在尝试在数据仓库和分析方面学习它。
有人可以建议我如何设置我的练习机,尤其是关于 1.开始学习所需的机器/节点数 2.是否建议在Windows上设置? 3.需要安装什么软件 4.测试/样本数据的可用性
我还想就使用 Hive 执行 BI 操作的最佳方式获得建议。
谢谢。
【问题讨论】:
标签: hive data-warehouse business-intelligence
我是 Hadoop 新手,正在尝试在数据仓库和分析方面学习它。
有人可以建议我如何设置我的练习机,尤其是关于 1.开始学习所需的机器/节点数 2.是否建议在Windows上设置? 3.需要安装什么软件 4.测试/样本数据的可用性
我还想就使用 Hive 执行 BI 操作的最佳方式获得建议。
谢谢。
【问题讨论】:
标签: hive data-warehouse business-intelligence
如果您对 hadoop 机器更感兴趣,我建议您下载 cloudera VM。另一种立即开始的方法 - 使用亚马逊 EMR(弹性 mapreduce)。有一个选项可以在那里创建交互式 hive 集群并开始使用存储在 S3 中的数据集。
关于节点的数量 - 这取决于目标。如果您有兴趣“感受”一些 hadoop 性能 - 至少尝试 4-6 个节点。
如果您无权访问组织的内部 hadoop / hive 集群,上面列出的两种方式都很好。即使在这种情况下 - 我建议在使用共享环境之前尝试与他们一起动手实践。
【讨论】: