【问题标题】:Is there a temporary folder that I can access while using AWS Glue?在使用 AWS Glue 时是否有可以访问的临时文件夹?
【发布时间】:2023-04-01 19:15:01
【问题描述】:

在 AWS 胶水中运行进程时,我是否可以访问一个临时文件夹来临时保存文件?例如,在 Lambda 中,只要进程正在执行,我们就可以访问 /tmp 目录。我们在 AWS Glue 中是否有类似的东西可以在作业执行时存储文件?

【问题讨论】:

    标签: amazon-web-services pyspark aws-glue


    【解决方案1】:

    你要这个吗? AWS Glue 可以识别和使用许多参数名称,您可以使用这些名称为您的作业和 JobRuns 设置脚本环境:

    • --TempDir - 指定存储桶的 S3 路径,该存储桶可用作作业的临时目录。

    这是link,你可以参考一下。

    希望,这会有所帮助。

    【讨论】:

    • 您好,感谢您的回复。这不是我要找的。我希望在系统本地有一个临时目录来运行进程,因为使用 S3 路径会增加上传和下载文件的开销。
    【解决方案2】:

    是的,有一个 tmp 目录可用于将文件移入和移出 s3。

    s3 = boto3.resource('s3')
    

    --下载文件到本地spark目录tmp

    s3.Bucket(bucket_name).download_file(DATA_DIR+file,'tmp/'+file)
    

    您还可以将文件从 'tmp/' 上传到 s3。

    【讨论】:

    • 我认为当前胶水启动的工作目录已经设置为'tmp',因此'tmp/'的前置是不必要的。
    猜你喜欢
    • 2018-10-19
    • 2016-07-28
    • 1970-01-01
    • 1970-01-01
    • 2016-10-02
    • 1970-01-01
    • 2014-02-17
    • 2015-01-03
    • 2016-08-17
    相关资源
    最近更新 更多