在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表

【问题标题】：Running AWS Glue crawler on Amazon Redshift logs creates tons of tables在 Amazon Redshift 日志上运行 AWS Glue 爬虫会创建大量表
【发布时间】：2020-01-14 00:44:50
【问题描述】：

我在 S3 中设置了 Redshift 的审计日志存储。现在，我计划在这些审计日志上设置外部表。在尝试使用 AWS Glue 爬虫读取这些文件时，我得到了大量的表格。每个文件有一个表。我假设总共会有两个表（因为我们记录了两个活动）。如果有人在使用外部表读取 Amazon Redshift 审计日志方面取得了任何成功，我想听听您的意见。

谢谢

【问题讨论】：

我也看到了这个博客，但它并没有按照上面提到的方式工作。 aws.amazon.com/blogs/big-data/…
有可能是少数文件损坏或少数文件中的架构发生了剧烈变化

标签： amazon-web-services amazon-redshift aws-glue amazon-athena

【解决方案1】：

为什么 AWS Glue 爬虫会根据我的源数据创建多个表，我该如何防止这种情况发生？ - https://aws.amazon.com/premiumsupport/knowledge-center/glue-crawler-multiple-tables/

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2022-08-21
2019-04-03
1970-01-01
1970-01-01
2021-08-09
1970-01-01
2018-09-19

相关资源

下载 2023-01-10
下载 2022-12-06
下载 2021-06-05
下载 2021-06-05

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode