【问题标题】:Crawler is creating a table with weird suffix to the nameCrawler 正在创建一个名称带有奇怪后缀的表
【发布时间】:2020-08-04 04:59:26
【问题描述】:

我们有一个 ETL 脚本,它读取数据表单目录并在 s3 中作为 parquet 写入。我们还调用爬虫来创建/更新 Athena 中的表。但是,它正在创建表,但在表名中添加了一些奇怪的后缀。

我正在抓取的文件夹中的所有文件都采用相同架构的镶木地板。此外,仅当我们从 ETL 脚本调用爬虫时才会发生这种情况。

我们用来调用爬虫的脚本

glue_client = boto3.client("glue", region_name=args.get("aws_region"))
glue_client.start_crawler(Name=args["crawler_name"])

预期:table_name 实际:table_name_31e198c8c61861f127ae06487eb14a3f

【问题讨论】:

    标签: amazon-web-services boto3 aws-glue


    【解决方案1】:

    当 Glue 爬虫在 Glue 数据目录中遇到重复的表名时,就会发生这种情况。请参阅此doc 讨论此行为:

    如果遇到重复的表名,爬虫会在名称中添加一个哈希字符串后缀。

    【讨论】:

    • 谢谢。但是我们可以在不同的数据库中拥有相同的表名。我试图在同一个数据库中创建元数据表和实际表导致了这个问题。当我更改数据库时,它工作正常。
    • 在我的例子中是一个单独的镶木地板文件,通过在名称中添加一个“_parquet”
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多