【问题标题】:Running AWS Glue crawler on Amazon Redshift logs creates tons of tables在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表
【发布时间】:2020-01-14 00:44:50
【问题描述】:

我在 S3 中设置了 Redshift 的审计日志存储。现在,我计划在这些审计日志上设置外部表。在尝试使用 AWS Glue 爬虫读取这些文件时,我得到了大量的表格。每个文件有一个表。我假设总共会有两个表(因为我们记录了两个活动)。如果有人在使用外部表读取 Amazon Redshift 审计日志方面取得了任何成功,我想听听您的意见。

谢谢

【问题讨论】:

  • 我也看到了这个博客,但它并没有按照上面提到的方式工作。 aws.amazon.com/blogs/big-data/…
  • 有可能是少数文件损坏或少数文件中的架构发生了剧烈变化

标签: amazon-web-services amazon-redshift aws-glue amazon-athena


【解决方案1】:

为什么 AWS Glue 爬虫会根据我的源数据创建多个表,我该如何防止这种情况发生? - https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-multiple-tables/

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-08-21
    • 2019-04-03
    • 1970-01-01
    • 1970-01-01
    • 2021-08-09
    • 1970-01-01
    • 2018-09-19
    相关资源
    最近更新 更多