【问题标题】:How can you read a gzipped parquet file in Python如何在 Python 中读取 gzipped parquet 文件
【发布时间】:2020-08-12 07:45:41
【问题描述】:

我需要打开一个 gzipped 文件,里面有一个 parquet 文件,里面有一些数据。我在尝试打印/读取文件中的内容时遇到了很多麻烦。我尝试了以下方法:

with gzip.open("myFile.parquet.gzip", "rb") as f:
    data = f.read()

这似乎不起作用,因为我收到一个错误,即我的文件 id 不是 gz 文件。谢谢!

【问题讨论】:

  • 两个步骤:1) 解压 2) 使用一个知道如何读取 parquet 文件的库,例如 pypi.org/project/parquet
  • 解压不行,这个我已经试过了

标签: python hadoop gzip parquet


【解决方案1】:

你可以使用pandas模块中的read_parquet函数:

  1. 安装pandaspyarrow
pip install pandas pyarrow
  1. 使用返回DataFrameread_parquet
data = read_parquet("myFile.parquet.gzip")
print(data.count()) # example of operation on the returned DataFrame

【讨论】:

    猜你喜欢
    • 2020-10-28
    • 2019-09-07
    • 1970-01-01
    • 2018-02-04
    • 2021-10-15
    • 2020-12-15
    • 2017-12-23
    • 1970-01-01
    • 2017-09-05
    相关资源
    最近更新 更多