【发布时间】:2017-01-23 08:27:40
【问题描述】:
我正在使用 Python boto 模块来访问 AWS S3 文件。 我使用 UNLOAD 命令从 Redshift 卸载文件,文件会自动压缩。 Redshift 生成一个文件的 10 个部分。
这是我用来获取文件列表并调用下载函数的部分代码:
key_list = bucket.list('folder_on_the_bucket')
pool = ThreadPool(processes=10)
partial_download = partial(download,0)
pool.map(partial_download, key_list)
这是下载功能:
def download(retry_cnt,key):
retry_cnt = retry_cnt
key = key
try:
#make sure that I download only files, not folders
if key.name[-1]=='/' or key.name[-1]=='\\':
pass
else:
log.info("Downloading %s" % local_dir+ntpath.basename(key.name))
key.get_contents_to_filename(local_dir+ntpath.basename(key.name))
if retry_cnt > 0:
#copy all files that needed to be retried to a specific directory (for debugging purposes)
shutil.copyfile(local_dir+ntpath.basename(key.name), 'error_files_folder'+ntpath.basename(key.name))
except:
if retry_cnt < 3:
retry_cnt += 1
log.warning("error downloading file %s, retrying for the %s. time" % (str(key.name),str(retry_cnt)))
log.warning(str(sys.exc_info()[1]))
time.sleep(5)
download(retry_cnt,key)
else:
log.error(sys.exc_info()[1])
sys.exit("Unable to download file")
问题是有时,AWS 会返回 404 错误,文件不存在。我已经手动检查了 S3 存储桶中的文件,并且它有数据。 我读过如果更改尚未传播,S3 可能会返回此类错误。这就是下载功能看起来像这样的原因。如果文件出现错误,我会尝试再次下载相同的文件。问题是我第二次下载文件时,它是空的,我丢失了一些数据。 (十分之一)。
此问题随机出现在不同的存储桶和文件夹上。
【问题讨论】:
-
另一种选择是使用AWS Command-Line Interface (CLI) 使用
aws s3 sync或aws s3 cp --recursive命令下载文件。 -
我可以在下载功能中使用它,但您认为它可以解决 404 错误吗?我认为错误发生在 AWS 端,而不是 Python 端。
标签: python amazon-web-services amazon-s3 http-status-code-404 boto