【发布时间】:2018-09-26 03:42:03
【问题描述】:
我有一个包含多个步骤的 EMR 集群。我正在尝试分析每周进来的日志数据。我想每周对附加数据运行相同的步骤。
长时间运行的集群:
- 从
data source加载日志文件(如果后续运行,则从日志文件加载或复制记录) - 分析数据
- 将数据返回到目的地
如何每周在集群上运行相同的步骤?
或者我是否需要每周启动新集群?
如果我能在这种处理大量数据的场景中获得有关数据源类型的一些指导,那就太好了。
【问题讨论】:
-
您希望集群在一周的剩余时间内保持运行,还是打算在每周完成该工作后关闭集群?
-
@JohnRotenstein 希望为自定义运行/触发器保留它。
-
如果您只想摄取和分析日志数据。 Amazon Elasticsearch(使用 Logstash 进行摄取,使用 Kibana 进行报告)可能比 EMR 更有意义
-
我想对日志数据进行 etl 作为我要分析的自定义日志数据。
标签: amazon-web-services amazon-emr