【发布时间】:2021-06-29 09:05:40
【问题描述】:
我有一个用例,我有一个 S3 存储桶,其中包含数百个 gzip 压缩文件的列表。每个单独的文件在解压缩并加载到数据帧中时,占用的内存都超过了可用内存。我想阅读这些文件并执行一些功能。但是,我似乎无法弄清楚如何解决这个问题。我已经尝试过 Dask 的 read_table,但由于 compression='gzip' 似乎需要 blocksize=None,这似乎不起作用。有什么我想念的吗?还是有更好的方法?
这是我尝试调用 read_table 的方式(请注意,名称、类型和空值在其他地方定义):
df = dd.read_table(uri,
compression='gzip',
blocksize=None,
names=names,
dtype=types,
na_values=nulls,
encoding='utf-8',
quoting=csv.QUOTE_NONE,
error_bad_lines=False)
我愿意接受任何建议,包括改变整个方法。
【问题讨论】:
标签: python dask dask-distributed