【问题标题】:Run the cluster steps for file upload on EMR运行集群步骤以在 EMR 上上传文件
【发布时间】:2018-09-26 03:42:03
【问题描述】:

我有一个包含多个步骤的 EMR 集群。我正在尝试分析每周进来的日志数据。我想每周对附加数据运行相同的步骤。

长时间运行的集群

  1. data source 加载日志文件(如果后续运行,则从日志文件加载或复制记录)
  2. 分析数据
  3. 将数据返回到目的地

如何每周在集群上运行相同的步骤?

或者我是否需要每周启动新集群?

如果我能在这种处理大量数据的场景中获得有关数据源类型的一些指导,那就太好了。

【问题讨论】:

  • 您希望集群在一周的剩余时间内保持运行,还是打算在每周完成该工作后关闭集群?
  • @JohnRotenstein 希望为自定义运行/触发器保留它。
  • 如果您只想摄取和分析日志数据。 Amazon Elasticsearch(使用 Logstash 进行摄取,使用 Kibana 进行报告)可能比 EMR 更有意义
  • 我想对日志数据进行 etl 作为我要分析的自定义日志数据。

标签: amazon-web-services amazon-emr


【解决方案1】:

您可以通过调用add-steps — AWS CLI Command Reference 向集群提交新步骤。

因此,您需要在某处调用集群以添加步骤的cron 作业。您可以在 Master 节点上创建 cron 作业,或者有无数的 Hadoop 工具可以安排和编排作业。

您确实不需要需要一个新节点,因为您的集群已经在运行。

【讨论】:

  • 这意味着将具有相同配置/设置的新步骤添加到集群中。我的挑战是如何处理数据。我不想要数据重复。对如何为集群设计数据处理感到困惑
  • 使用 EMR 的最佳方式是直接从 Amazon S3 加载数据。因此,在 EMR 中触发作业之前,应在 S3 中放置/更新数据。如果您希望自动转换数据,请参阅AWS Glue
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-11-25
  • 2020-08-18
  • 2020-10-31
  • 2021-12-10
  • 2017-08-24
  • 1970-01-01
相关资源
最近更新 更多