【发布时间】:2018-01-30 18:14:05
【问题描述】:
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的课程。
该课程的当前设置涉及使用带有 VirtualBox 的虚拟机。
我只是想知道是否有更快、更有效的程序实现我可以使用。该程序可以以某种方式安装在我的本地环境中吗?
(我使用的是带有 OS High Sierra 的 2017 Macbook Pro)
【问题讨论】:
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的课程。
该课程的当前设置涉及使用带有 VirtualBox 的虚拟机。
我只是想知道是否有更快、更有效的程序实现我可以使用。该程序可以以某种方式安装在我的本地环境中吗?
(我使用的是带有 OS High Sierra 的 2017 Macbook Pro)
【问题讨论】:
你可以在你的 Mac OS 中以所谓的伪分布式模式安装 Hadoop、Spark、Hive、Pig。它是您本地机器上的安装,其中“集群”的每个节点都是 Java 虚拟机。 起点是Hadoop安装,你可以按照这个教程来:
https://www.quickprogrammingtips.com/big-data/how-to-install-hadoop-on-mac-os-x-el-capitan.html
有很多关于在 mac OS 中安装 Hadoop 生态系统其他部分的教程,至少对于 El Capitan 来说是这样。 (我在 High Sierra 上跟随他们没有遇到任何问题)。
您在 Cloudera 或 MapR 或其他沙盒中的 Hadoop 体验是完全不同的。非常顺利。你运行 Hue 并从那里开始编码:你有 Impala(还不能用于 Mac OS)、Hive、Sqoop、Pig 编辑器和许多其他在 HDFS 上工作的服务已经为你设置好了。一切都准备好被利用了。您只需从 Cloudera 管理器中启动所有服务,在 VM 中打开 Firefox 浏览器,即可开始分析数据。在学习方面,我认为这是你在这个阶段可能关心的,这是最有效的方式。
使用 Docker 是安装 Cloudera 快速入门的一种更有效的方法。首先下载 Mac 社区版:
https://store.docker.com/editions/community/docker-ce-desktop-mac
然后从终端类型:
docker pull cloudera/quickstart
并在以下位置进行安装:
https://store.docker.com/community/images/cloudera/quickstart
你会看到它比虚拟机运行效率更高,也更稳定。
计算意义上的效率来自云服务。您可以使用 AWS、Azure、GCP 或其他云提供商,并在第二阶段试验 Hadoop 的真正威力。有许多免费试用云服务的优惠,但它们在时间或您可以花费的免费积分(以美元计)方面是有限的。所以我建议在掌握了最重要的技能之后再去那里。
【讨论】:
该程序能否以某种方式安装在我的本地环境中?
是的,Hadoop 可以安装在您的 Mac 上。不,CDH 没有适用于 macOS 的 DMG。
这和运行 CDH 一样吗?不,没有Cloudera Manager、Hue、Hive、HBase、Sqoop、Pig、Spark等。
每个额外的工具都需要单独安装。
“更快、更高效”的替代方案是使用 Mac 外部的专用 CDH 集群。
【讨论】: