【发布时间】:2019-07-16 15:54:13
【问题描述】:
我正在通过胶水作业填充一些数据。工作本身是从 s3 读取 TSV,稍微转换数据,然后在 Parquet 中将其写入 S3。由于我已经拥有数据,因此我尝试一次启动多个作业以减少处理所有作业所需的时间。当我同时启动多个作业时,有时会遇到一个问题,即其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而不会引发错误当我将作业作为非并行任务重新运行时,它输出的文件正确。是否存在一些问题,无论是胶水(或底层火花)还是 S3 都会导致我的问题?
【问题讨论】:
标签: amazon-web-services amazon-s3 pyspark aws-glue