【问题标题】:How to create Panda Dataframe from csv that is compressed in tar.gz?如何从 tar.gz 中压缩的 csv 创建 Pandas Dataframe?
【发布时间】:2016-08-28 12:08:47
【问题描述】:

如何从 tar.gz 中压缩的 csv 文件创建 pandas DataFrame?我发现这段代码可以做到这一点,但使用的是 zip 文件。在不下载 tar.gz 和 csv 文件的情况下,我应该在以下代码中进行哪些更改以使其与 tar.gz 一起使用。

import pandas, requests, zipfile, StringIO
r =requests.get('http://data.octo.dc.gov/feeds/crime_incidents/archive/crime_incidents_2013_CSV.zip')
z = zipfile.ZipFile(StringIO.StringIO(r.content))
df=pandas.read_csv(z.open('sample_CSV.csv'))

我的档案是https://ghtstorage.blob.core.windows.net/downloads/mysql-2016-06-16.tar.gz

【问题讨论】:

  • 请注意,压缩文件几乎是 40GB。这将被解压缩并加载到内存中。你有多少内存?

标签: python csv pandas gzip tar


【解决方案1】:

您可以尝试下面的方法来提取 tar.gz,如下所示:

import tarfile
tar = tarfile.open(fname, "r:gz")
tar.extractall()
tar.close()

【讨论】:

  • 谢谢,拉加夫!感谢您的回复。
【解决方案2】:

尝试简单地提供您的 .tar.gz 文件作为文件名
read_csv会自动解压打开,
因为这是 gz 文件的默认行为。

确保扩展名是小写的。

【讨论】:

  • 谢谢,以色列!感谢您的回复。
猜你喜欢
  • 1970-01-01
  • 2011-10-30
  • 2012-08-28
  • 2017-10-04
  • 2017-03-03
  • 2019-07-08
  • 1970-01-01
  • 1970-01-01
  • 2020-12-05
相关资源
最近更新 更多