【问题标题】:Glue Job fails to write file胶水作业无法写入文件
【发布时间】:2019-07-16 15:54:13
【问题描述】:

我正在通过胶水作业填充一些数据。工作本身是从 s3 读取 TSV,稍微转换数据,然后在 Parquet 中将其写入 S3。由于我已经拥有数据,因此我尝试一次启动多个作业以减少处理所有作业所需的时间。当我同时启动多个作业时,有时会遇到一个问题,即其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而不会引发错误当我将作业作为非并行任务重新运行时,它输出的文件正确。是否存在一些问题,无论是胶水(或底层火花)还是 S3 都会导致我的问题?

【问题讨论】:

    标签: amazon-web-services amazon-s3 pyspark aws-glue


    【解决方案1】:

    并行运行的同一 Glue 作业可能会生成具有相同名称的文件,因此其中一些可能会被覆盖。我没记错,transformation-context 被用作名称的一部分。我假设您没有启用书签,因此您应该可以安全地动态生成转换上下文值,以确保它对于每个作业都是唯一的。

    【讨论】:

    • 谢谢,这让我发疯了
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-08-05
    • 1970-01-01
    • 1970-01-01
    • 2020-04-12
    • 2021-12-02
    • 1970-01-01
    • 2022-08-09
    相关资源
    最近更新 更多