【发布时间】:2023-04-01 19:15:01
【问题描述】:
在 AWS 胶水中运行进程时,我是否可以访问一个临时文件夹来临时保存文件?例如,在 Lambda 中,只要进程正在执行,我们就可以访问 /tmp 目录。我们在 AWS Glue 中是否有类似的东西可以在作业执行时存储文件?
【问题讨论】:
标签: amazon-web-services pyspark aws-glue
在 AWS 胶水中运行进程时,我是否可以访问一个临时文件夹来临时保存文件?例如,在 Lambda 中,只要进程正在执行,我们就可以访问 /tmp 目录。我们在 AWS Glue 中是否有类似的东西可以在作业执行时存储文件?
【问题讨论】:
标签: amazon-web-services pyspark aws-glue
你要这个吗? AWS Glue 可以识别和使用许多参数名称,您可以使用这些名称为您的作业和 JobRuns 设置脚本环境:
这是link,你可以参考一下。
希望,这会有所帮助。
【讨论】:
是的,有一个 tmp 目录可用于将文件移入和移出 s3。
s3 = boto3.resource('s3')
--下载文件到本地spark目录tmp
s3.Bucket(bucket_name).download_file(DATA_DIR+file,'tmp/'+file)
您还可以将文件从 'tmp/' 上传到 s3。
【讨论】:
'tmp',因此'tmp/'的前置是不必要的。