【问题标题】:Slow reading from AWS S3 bucket从 AWS S3 存储桶读取缓慢
【发布时间】:2018-10-11 09:35:30
【问题描述】:

我正在尝试从 s3 存储桶中读取带有 pandas 的文件,而不将文件下载到磁盘。我已经尝试使用 boto3 作为

import boto3

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='bucket_name', Key="key")
read_file = io.BytesIO(obj['Body'].read())
pd.read_csv(read_file)

我也尝试过 s3fs

import s3fs
import pandas as pd

fs = s3fs.S3FileSystem(anon=False)
with fs.open('bucket_name/path/to/file.csv', 'rb') as f:
    df = pd.read_csv(f)`

问题是读取文件需要很长时间。读取 38MB 文件大约需要 3 分钟。应该是这样吗?如果是,那么有没有更快的方法来做同样的事情。如果不是,任何可能导致问题的建议?

谢谢!

【问题讨论】:

    标签: python-3.x amazon-s3 boto3


    【解决方案1】:

    基于this answer 的类似问题,您可能需要考虑您正在读取的存储桶位于哪个区域,与您从中读取它的位置相比。可能是一个简单的更改(假设您可以控制存储桶的位置),可以显着提高性能。

    【讨论】:

      猜你喜欢
      • 2022-01-13
      • 1970-01-01
      • 2017-09-29
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-02-02
      相关资源
      最近更新 更多