【发布时间】:2018-07-20 16:55:31
【问题描述】:
我是 AWS Glue 的新手,很难完全理解 AWS 文档,但我在以下用例中苦苦挣扎:
我们有一个包含许多 Avro 文件的 s3 存储桶。我们决定使用 Avro,因为它广泛支持超时数据模式更改,允许将新字段毫无问题地应用于旧数据。
使用 AWS Glue,我了解每当架构发生更改时,爬网程序都会创建一个新表。当我们的架构发生变化时,这会导致爬虫创建许多新表,正如预期的那样,但并不完全符合我们的期望......
最终,我们希望爬虫检测到最新的架构,并将该架构应用于我们在 s3 存储桶中抓取的所有数据,只输出一个表。我们(可能错误地)假设通过使用 Avro,这不会成为问题,因为爬虫可以将具有给定默认值或空值的新模式字段应用于旧数据(使用 Avro 的好处),并且只输出一个表然后我们可以使用 AWS Athena 进行查询。
AWS Glue 中是否有一种方法可以为 s3 存储桶中的所有数据使用给定的架构,从而使我们能够利用架构演变的 Avro 优势,从而将所有数据输出到一个表中?
【问题讨论】:
-
结果如何?我有一个类似的问题。
标签: amazon-web-services amazon-s3 avro aws-glue