【发布时间】:2020-02-25 19:07:30
【问题描述】:
我一直在使用 pandas 手动将文件分区(创建索引或多索引,然后在循环中为每个索引编写单独的 parquet 文件)到 Azure Blob。
但是,在阅读 pyarrow 的文档时,我发现可以创建一个“数据集”,其中包含用于分区数据的文件夹结构。 https://arrow.apache.org/docs/python/parquet.html
每月/每日文件夹的示例正是我想要实现的。
dataset_name/
year=2007/
month=01/
0.parq
1.parq
...
month=02/
0.parq
1.parq
...
month=03/
...
year=2008/
month=01/
...
fs = pa.hdfs.connect(host, port, user=user, kerb_ticket=ticket_cache_path)
pq.write_to_dataset(table, root_path='dataset_name',
partition_cols=['one', 'two'], filesystem=fs)
我可以使用 Azure Blob(或使用 S3 并覆盖我的 Azure Blob 存储的 Minio)来执行此操作吗?我的最终目标是只读取对我的“查询”有意义的文件。
【问题讨论】:
-
使用 pyarrow 运行 Python 脚本的环境是什么?比如 Azure VM 上的 LInux 还是本地的?
-
Linux 在 Azure VM 上(不过我自己安装了所有软件 - 目前所有软件大多是 docker 容器,使用一些流行的图像)。 Python 来自 Jupyterhub 图片
标签: azure-blob-storage parquet pyarrow