【问题标题】:Not able to populate AWS Glue ETL Job metrics无法填充 AWS Glue ETL 作业指标
【发布时间】:2020-04-27 08:07:40
【问题描述】:

我正在尝试为某些测试填充最大可能的 Glue 作业指标,以下是我创建的设置:

  • 爬虫从放置在 S3 存储桶中的 CSV 文件中读取数据(500 行的虚拟客户数据)。
  • 使用另一个爬虫来爬取在 Redshift 集群中创建的表。
  • ETL 作业最终从 s3 中的 csv 文件读取数据并将其转储到 Redshift 表中。

作业正在运行,没有任何问题,我可以看到最终数据被转储到 Redshift 表中,但是,最后,只有不到 5 个 Cloudwatch 指标被填充:

  • glue.jvm.heap.usage
  • glue.jvm.heap.used
  • glue.s3.filesystem.read_bytes
  • glue.s3.filesystem.write_bytes
  • glue.system.cpuSystemLoad

还有大约 20 个指标未填充。

还有关于如何填充这些剩余指标的任何建议吗?

【问题讨论】:

    标签: amazon-web-services amazon-s3 amazon-redshift metrics aws-glue


    【解决方案1】:

    遇到了同样的问题。你的glue.s3.filesystem.read_bytes 和glue.s3.filesystem.write_bytes 有数据吗?

    一个可能的原因是,如果作业在 30 秒内完成,则不会发出 AWS Glue 作业指标

    【讨论】:

      【解决方案2】:

      在运行作业时启用监控选项卡下的指标选项。

      【讨论】:

        【解决方案3】:

        假设您使用 Glue 版本 2.0 执行上述作业,请注意 AWS Glue 版本 2.0 不使用动态分配,因此 ExecutorAllocationManager 指标不可用。使用 Glue 1.0 的回溯,您应该确认所有记录的指标现在都可用。


        https://docs.aws.amazon.com/glue/latest/dg/reduced-start-times-spark-etl-jobs.html#reduced-start-times-limitations

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2019-01-29
          • 2022-07-21
          • 2018-01-30
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          相关资源
          最近更新 更多