AWS 上的 Hadoop 流式传输 - 情绪分析示例答案

【问题标题】：Hadoop streaming on AWS - Sentiment Analysis ExampleAWS 上的 Hadoop 流式传输 - 情绪分析示例
【发布时间】：2013-12-31 04:02:22
【问题描述】：

我正在做 AWS 大数据示例：使用 Hadoop 流和 Python 代码进行情绪分析（链接如下：）

http://blog.newitfarmer.com/anls/analytics-bi/sentiment-analysis-analytics-bi/13436/repost-analyzing-big-data-getting-started-sentiment-analysis

一切正常“除了”过程失败，因为我无法访问示例的以下密钥文件：

s3://awsdocs/gettingstarted/latest/sentiment/config–nltk.sh

我怀疑问题可能是没有对该文件的公共读取访问权限..

有人可以告诉我如何访问这个 shell 脚本文件或如何将它复制到我自己的文件夹中吗？（我知道 Amazon Machine 实例 unix 复制的语法是 s3cmd put *filename* *copylocation* 但 AMI 的 unix promt 不允许我复制文件）

编辑： 好的，我现在已经解决了一半：虽然我仍然无法访问该文件，但我成功地将文件复制到我自己的文件夹中，使用以下命令：

s3cmd cp s3://awsdocs/gettingstarted/latest/sentiment/config-nltk.sh s3://mysentimentjobX/

现在我应该能够将此文件放在我自己的文件夹中，并从我自己的 S3 存储桶运行 Hadoop 流作业。如果我最后一点成功，我会告诉你，并告诉你我是怎么做到的（如果我成功了:)）

【问题讨论】：

【解决方案1】：

（移自 OP 的问题）：

AWS 给这个示例脚本的名称 (config–nltk.sh) 似乎是因为使用 - 而不是 _ 而导致问题。当我将文件复制到我自己的 S3 存储桶中重命名为使用 _ 时，我可以毫无问题地运行该示例。

【讨论】：