【发布时间】:2019-04-03 16:42:04
【问题描述】:
我有一些关于 AWS Glue 及其爬虫的一般性问题。我有一些数据流到 S3 存储桶中,我使用 AWS Athena 将它们作为 redshift 中的外部表进行访问。 表按小时分区,一些胶水爬虫每小时更新分区和表结构。
问题是爬虫花费的时间越来越长,总有一天它们不会在不到一个小时内完成。 是否有一些设置可以加快此过程或 AWS Glue 中的爬虫的适当替代方案?
【问题讨论】:
-
如果 MSCK REPAIR TABLE
命令也花费了很长时间,这个问题可能与 s3 问题有关。我有类似的问题,但我还没有解决。
标签: amazon-web-services amazon-s3 amazon-redshift amazon-athena aws-glue