【问题标题】:Hadoop streaming on AWS - Sentiment Analysis ExampleAWS 上的 Hadoop 流式传输 - 情绪分析示例
【发布时间】:2013-12-31 04:02:22
【问题描述】:

我正在做 AWS 大数据示例:使用 Hadoop 流和 Python 代码进行情绪分析(链接如下:)

http://blog.newitfarmer.com/anls/analytics-bi/sentiment-analysis-analytics-bi/13436/repost-analyzing-big-data-getting-started-sentiment-analysis

一切正常“除了”过程失败,因为我无法访问示例的以下密钥文件:

s3://awsdocs/gettingstarted/latest/sentiment/config–nltk.sh

我怀疑问题可能是没有对该文件的公共读取访问权限..

有人可以告诉我如何访问这个 shell 脚本文件或如何将它复制到我自己的文件夹中吗? (我知道 Amazon Machine 实例 unix 复制的语法是 s3cmd put *filename* *copylocation* 但 AMI 的 unix promt 不允许我复制文件)

编辑: 好的,我现在已经解决了一半: 虽然我仍然无法访问该文件,但我成功地将文件复制到我自己的文件夹中,使用以下命令:

s3cmd cp s3://awsdocs/gettingstarted/latest/sentiment/config-nltk.sh s3://mysentimentjobX/

现在我应该能够将此文件放在我自己的文件夹中,并从我自己的 S3 存储桶运行 Hadoop 流作业。如果我最后一点成功,我会告诉你,并告诉你我是怎么做到的(如果我成功了:))

【问题讨论】:

    标签: python amazon-web-services hadoop amazon-s3 amazon-emr


    【解决方案1】:

    (移自 OP 的问题):

    AWS 给这个示例脚本的名称 (config–nltk.sh) 似乎是因为使用 - 而不是 _ 而导致问题。当我将文件复制到我自己的 S3 存储桶中重命名为使用 _ 时,我可以毫无问题地运行该示例。

    【讨论】:

      猜你喜欢
      • 2018-03-19
      • 1970-01-01
      • 2012-01-24
      • 2023-03-16
      • 2013-02-02
      • 2019-07-15
      • 1970-01-01
      • 2014-12-11
      • 1970-01-01
      相关资源
      最近更新 更多