尝试在 AWS Data Pipeline 上构建自动化脚本答案

【问题标题】：Trying to build an automation script on AWS Data Pipeline尝试在 AWS Data Pipeline 上构建自动化脚本
【发布时间】：2015-01-30 01:57:37
【问题描述】：

我正在尝试通过以下方式使用 AWS Data Pipeline 服务：

选择活动类型为 Shell Command 活动，脚本 uri 设置（到 s3 存储桶），Stage 输入设置为 true。
将活动的资源类型设置为 EC2。
使用 S3 作为数据节点。
对于 ec2 资源，我选择实例类型为 t2.medium，实例 ID 选择为我创建的自定义 AMI。
安排管道在每天晚上 10 点运行。

第 1 步中指定的脚本（即作为活动中脚本 uri 的一部分）有 2 行： 1. 将 S3 存储桶数据复制到实例。 2.运行python命令来执行我的程序。我创建的 AMI 基于 ec2 的 Ubuntu 实例，它由一些 python 软件和我想运行的代码组成。

现在，在启动管道时，我注意到确实创建了 ec2 实例，并且 S3 数据被复制并可供实例使用，但没有运行 python 命令。实例处于运行状态，管道处于等待运行状态一段时间，然后数据管道失败并显示消息：“资源停止”。

如果我做错了什么，或者为什么我的 python 代码没有被执行，或者为什么我得到资源停滞错误，有人可以告诉我吗？如果我在没有管道的情况下手动运行代码，代码可以正常工作。

提前致谢！！

【问题讨论】：

您的管道任务运行程序似乎没有与数据管道服务通信它已启动..您能否验证是否不是这种情况？这是在 VPC 中运行的吗？

标签： python amazon-web-services amazon-s3 automation amazon-data-pipeline

【解决方案1】：

“资源停滞”几乎总是意味着您的自定义 AMI 设置存在问题。这些要求记录在here。短点：

自定义 AMI 必须满足以下要求，AWS Data Pipeline 才能成功地将其用于 Task Runner：

在实例将运行的同一区域中创建 AMI。

确保您计划使用的实例类型支持 AMI 的虚拟化类型。例如，I2 和 G2 实例类型需要 HVM AMI，而 T1、C1、M1 和 M2 实例类型需要 PV AMI。

安装以下软件：

Linux

重击

wget

解压

Java 1.6 或更新版本

云初始化

创建并配置一个名为 ec2-user 的用户帐户。

【讨论】：