【问题标题】:Data Catalog tables as sources数据目录表作为源
【发布时间】:2019-10-10 21:37:20
【问题描述】:

我正在尝试创建一个爬虫来扫描 S3 存储桶 Parquet 文件并更新 Glue 数据目录中现有表的分区信息。

这就是我所说的确切功能。 https://aws.amazon.com/about-aws/whats-new/2019/05/aws-glue-crawlers-now-support-existing-data-catalog-tables-as-sources/

当然可以从控制台工作,但是,在使用 cloudformation 创建 AWS::Glue::Crawler 时,我没有找到从 DataCatalog 提供表名称的选项。这是未添加到 cloudformation 的功能还是我在文档中找不到它。

还有其他选择吗?

【问题讨论】:

    标签: amazon-web-services amazon-cloudformation aws-glue


    【解决方案1】:

    将s3桶中的文件夹名作为表名。您可以使用TablePrefix 添加前缀。但现阶段无法明确指定表名。

    【讨论】:

    • 谢谢桑迪普。我联系了 AWS 支持,他们确实确认这尚未添加到 CF。我最终做了类似的事情。创建了与 Crawler 使用相似参数创建的名称相同的表,并让 Crawler 只更新分区信息!
    猜你喜欢
    • 1970-01-01
    • 2020-03-13
    • 1970-01-01
    • 2021-12-09
    • 2012-07-28
    • 1970-01-01
    • 1970-01-01
    • 2010-10-15
    • 1970-01-01
    相关资源
    最近更新 更多