【问题标题】:using AWS Glue with Apache Avro on schema changes在架构更改上使用 AWS Glue 和 Apache Avro
【发布时间】:2018-07-20 16:55:31
【问题描述】:

我是 AWS Glue 的新手,很难完全理解 AWS 文档,但我在以下用例中苦苦挣扎:

我们有一个包含许多 Avro 文件的 s3 存储桶。我们决定使用 Avro,因为它广泛支持超时数据模式更改,允许将新字段毫无问题地应用于旧数据。

使用 AWS Glue,我了解每当架构发生更改时,爬网程序都会创建一个新表。当我们的架构发生变化时,这会导致爬虫创建许多新表,正如预期的那样,但并不完全符合我们的期望......

最终,我们希望爬虫检测到最新的架构,并将该架构应用于我们在 s3 存储桶中抓取的所有数据,只输出一个表。我们(可能错误地)假设通过使用 Avro,这不会成为问题,因为爬虫可以将具有给定默认值或空值的新模式字段应用于旧数据(使用 Avro 的好处),并且只输出一个表然后我们可以使用 AWS Athena 进行查询。

AWS Glue 中是否有一种方法可以为 s3 存储桶中的所有数据使用给定的架构,从而使我们能够利用架构演变的 Avro 优势,从而将所有数据输出到一个表中?

【问题讨论】:

  • 结果如何?我有一个类似的问题。

标签: amazon-web-services amazon-s3 avro aws-glue


【解决方案1】:

我没有专门使用 Avro 文件,但 AWS Glue 允许您以多种方式配置爬虫。

如果您创建新的爬虫,系统会在“配置爬虫的输出”部分下提示您提供一些选项。

根据您的情况,我认为您需要勾选 Update all new and existing partitions with metadata from the table.

这就是子菜单的样子。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-08-20
    • 2022-01-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-08-02
    • 2020-09-26
    • 2017-12-15
    相关资源
    最近更新 更多