【发布时间】:2014-12-13 08:04:12
【问题描述】:
我正在尝试让 Oryx 在 Google Compute Engine 上运行。我创建了一个新实例并通过以下方式安装了 Oryx:
git clone https://github.com/cloudera/oryx.git
cd oryx
mvn -DskipTests install
并将此安装保存为 Google Compute Engine 上的图像(“oryx-image”)。
发现 Oryx 和 Google 文件系统 (Hadoop 2.4.1 and Google Cloud Storage connector for Hadoop) 的问题 我一直使用 hdfs:// 作为默认文件系统。
发现在 Google Compute Engine 上启动的默认 Hadoop 包存在问题(例如,没有 Snappy 库,默认 Oryx 配置需要这些库),我还尝试创建自己的 Hadoop 2.4.1包含 Snappy 的 tarball 遵循以下说明:How to enable Snappy/Snappy Codec over hadoop cluster for Google Compute Engine (旁注:此处描述的 jdk 版本是否足以用于 oryx?)。然后我使用了安装了 oryx 的保存图像(“oryx-image”):
./bdutil --bucket <some-bucket> --image oryx-image -n $number \
--env_var_files hadoop2_env.sh --default_fs hdfs
还有我保存的 Hadoop tarball:
# File: hadoop2_env.sh
HADOOP_TARBALL_URI="gs://<some-bucket>/hadoop-2.4.1.tar.gz"
在 Google Compute Engine 上部署 Hadoop 2.4.1(使用 Snappy)集群(默认文件系统 = hdfs://)。还是没有运气。
我可以在 GCE 上成功运行测试 Hadoop 作业,在 GCE 上测试 Snappy 实现(请参阅 second link),并在 GCE 上从主节点本地测试 Oryx 作业:
# File: oryx.conf
model.local-data = true
model.local-computation = true
唯一的问题是让 Oryx 在 Google Compute Engine 上成功运行,数据位于 hdfs:// 或 gs:// 中。
我发现了很多关于环境变量更改等的不同指令,我不知道哪些是必要的,哪些可能会导致更多问题。我想知道是否有关于在 GCE 上安装/运行 oryx 的文档。也许有人已经完成了相同的过程并且可以提供指导和/或至少确认安装成功?
在 GCE 上使用 Snappy 安装 Hadoop 2.4.1 的说明(参见 second link)非常棒。我希望找到有关所有步骤使 oryx 从头开始在 GCE 上工作所必需的详细信息。
谢谢!
【问题讨论】:
标签: java hadoop google-compute-engine oryx