AWS Glue 爬虫和存储在 S3 中的大型表

【问题标题】：AWS Glue Crawlers and large tables stored in S3AWS Glue 爬虫和存储在 S3 中的大型表
【发布时间】：2019-04-03 16:42:04
【问题描述】：

我有一些关于 AWS Glue 及其爬虫的一般性问题。我有一些数据流到 S3 存储桶中，我使用 AWS Athena 将它们作为 redshift 中的外部表进行访问。表按小时分区，一些胶水爬虫每小时更新分区和表结构。

问题是爬虫花费的时间越来越长，总有一天它们不会在不到一个小时内完成。是否有一些设置可以加快此过程或 AWS Glue 中的爬虫的适当替代方案？

【问题讨论】：

【解决方案1】：

很遗憾，Glue Crawler 没有用于调整性能的配置选项。但是，据我所知，AWS Glue 团队应该发布一项功能，可以显着提高爬虫的性能（但不知道具体日期）。

一般来说，在 Data Catalog 中注册新分区的方法很少：

最有效的方法是手动添加分区（3 或 4）。因此，如果您知道应该在何时以及哪些新分区应该注册，那么您可以设置一个 lambda 函数来调用 Athena 或 Glue API。 lambda 本身可能由 SNS 或 CloudWatch 事件触发。

【讨论】：