Amazon EMR：在数据节点上配置存储答案

【问题标题】：Amazon EMR: Configuring storage on data nodesAmazon EMR：在数据节点上配置存储
【发布时间】：2012-06-07 01:02:57
【问题描述】：

我正在使用 Amazon EMR，并且能够正常运行大多数作业。当我开始在 EMR 集群中加载和生成更多数据时，我遇到了问题。集群存储空间不足。

每个数据节点都是一个 c1.medium 实例。根据链接here 和here，每个数据节点应配备 350GB 的实例存储。通过 ElasticMapReduce Slave 安全组，我能够在我的 AWS 控制台中验证 c1.medium 数据节点正在运行并且是实例存储。

当我在 namenode 上运行 hadoop dfsadmin -report 时，每个数据节点都有大约 10GB 的存储空间。通过运行 df -h

进一步验证了这一点

hadoop@domU-xx-xx-xx-xx-xx:~$ df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda1             9.9G  2.6G  6.8G  28% /
tmpfs                 859M     0  859M   0% /lib/init/rw
udev                   10M   52K   10M   1% /dev
tmpfs                 859M  4.0K  859M   1% /dev/shm

如何配置我的数据节点以使用完整的 350GB 存储空间启动？有没有办法使用引导操作来做到这一点？

【问题讨论】：

标签： hadoop amazon-ec2 amazon-web-services elastic-map-reduce emr

【解决方案1】：

经过更多研究并在 AWS 论坛上发帖后，我得到了一个解决方案，尽管我并没有完全了解幕后发生的事情。如果可以的话，我想我会把这个作为答案发布。

原来 AMI 2.0 版中存在一个错误，这当然是我尝试使用的版本。（我已切换到 2.0，因为我希望 hadoop 0.20 成为默认值）AMI 版本 2.0 中的错误会阻止在 32 位实例上安装实例存储，这就是 c1.mediums 启动的原因。

通过在 CLI 工具上指定 AMI 版本应使用“最新”，问题已得到解决，并且每个 c1.medium 都使用适当的 350GB 存储空间启动。

例如

./elastic-mapreduce --create --name "Job" --ami-version "latest" --other-options

有关使用 AMI 和“最新”的更多信息，请访问 here。目前“最新”设置为 AMI 2.0.4。 AMI 2.0.5 是最新版本，但看起来还是有一些问题。

【讨论】：