【问题标题】:AWS Glue Crawlers and large tables stored in S3AWS Glue 爬虫和存储在 S3 中的大型表
【发布时间】:2019-04-03 16:42:04
【问题描述】:

我有一些关于 AWS Glue 及其爬虫的一般性问题。我有一些数据流到 S3 存储桶中,我使用 AWS Athena 将它们作为 redshift 中的外部表进行访问。 表按小时分区,一些胶水爬虫每小时更新分区和表结构。

问题是爬虫花费的时间越来越长,总有一天它们不会在不到一个小时内完成。 是否有一些设置可以加快此过程或 AWS Glue 中的爬虫的适当替代方案?

【问题讨论】:

  • 如果 MSCK REPAIR TABLE 命令也花费了很长时间,这个问题可能与 s3 问题有关。我有类似的问题,但我还没有解决。

标签: amazon-web-services amazon-s3 amazon-redshift amazon-athena aws-glue


【解决方案1】:

很遗憾,Glue Crawler 没有用于调整性​​能的配置选项。但是,据我所知,AWS Glue 团队应该发布一项功能,可以显着提高爬虫的性能(但不知道具体日期)。

一般来说,在 Data Catalog 中注册新分区的方法很少:

  1. Run a Glue Crawler
  2. Run MSCK REPAIR TABLE <table> Athena query
  3. Add partition via Athena
  4. Add partition via Glue API

最有效的方法是手动添加分区(3 或 4)。因此,如果您知道应该在何时以及哪些新分区应该注册,那么您可以设置一个 lambda 函数来调用 Athena 或 Glue API。 lambda 本身可能由 SNS 或 CloudWatch 事件触发。

【讨论】:

  • thx,3,4 对我来说似乎也是最实用的选择。遗憾的是,aws 没有提供“完全托管”的快速选项
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2018-05-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多