【发布时间】:2016-08-28 12:08:47
【问题描述】:
如何从 tar.gz 中压缩的 csv 文件创建 pandas DataFrame?我发现这段代码可以做到这一点,但使用的是 zip 文件。在不下载 tar.gz 和 csv 文件的情况下,我应该在以下代码中进行哪些更改以使其与 tar.gz 一起使用。
import pandas, requests, zipfile, StringIO
r =requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip')
z = zipfile.ZipFile(StringIO.StringIO(r.content))
df=pandas.read_csv(z.open('sample_CSV.csv'))
我的档案是https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-06-16.tar.gz
【问题讨论】:
-
请注意,压缩文件几乎是 40GB。这将被解压缩并加载到内存中。你有多少内存?
标签: python csv pandas gzip tar