Amazon EC2 和 S3：如何读取和写入数据答案

【问题标题】：Amazon EC2 and S3: How to read and write dataAmazon EC2 和 S3：如何读取和写入数据
【发布时间】：2013-01-02 19:29:00
【问题描述】：

我刚刚按照以下指南：http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster 在 Amazon EC2 上设置了一个集群，并运行了 hadoop 和 hbase。

我现在想知道的是，我如何才能在集群上运行的 hbase 中获取我的数据？我是否需要将其加载到 S3 中，然后将其加载到我的 hbase 集群中？

是否有加载/提取数据的最佳做法？由于我是 EC2 的新手，因此任何类型的指针都会受到赞赏。

【问题讨论】：

您不使用 Amazon 的 Elastic MapReduce 有什么原因吗？如果您不熟悉在 AWS 上运行 Hadoop，您可能会发现使用它更容易。这是 MapReduces 的 AWS 入门指南：docs.aws.amazon.com/ElasticMapReduce/latest/GettingStartedGuide/…，这是一个有用的教程：aws.amazon.com/code/Elastic-MapReduce/2273
@Daan 我正在努力将我们的组代码移到亚马逊 ec2 上，我们已经拥有自己想要使用的 MapReduce 基础架构。

【解决方案1】：

您需要通过 SSH 连接到您的一个节点，然后您可以使用以下方式将数据复制到 HDFS：

hadoop fs -copyFromLocal 数据/sample_rdf.nt 输入/sample_rdf.nt

这会将文件从本地计算机复制到 HDFS。当然，这假设您已经在您的机器上获得了该文件，因此您必须先将其上传到 EC2，或者让您的 EC2 节点从某个地方下载它。

将您的文件上传到 S3 并使用 s3cmd 将其从 S3 复制到您的计算机可能是有意义的，具体取决于您销毁节点的频率以及您是否希望保留文件以供以后使用。

（在您遵循的教程中还有一些示例，在第三部分。）

【讨论】：

补充一点，如果您最终将数据放在 S3 中，您可以使用 distcp 将其直接复制到 HDFS，如下所示：hadoop distcp s3://my.bucket/data/foo hdfs:///data/bar