【发布时间】:2017-06-05 19:55:13
【问题描述】:
我已将数据从 redshift 卸载到 S3,卸载后我得到了 xx_0000_part_00 多个文件。
现在我想将这些文件读入 pandas 数据框。
我该怎么做?
谢谢, 索姆
【问题讨论】:
标签: python pandas amazon-redshift
我已将数据从 redshift 卸载到 S3,卸载后我得到了 xx_0000_part_00 多个文件。
现在我想将这些文件读入 pandas 数据框。
我该怎么做?
谢谢, 索姆
【问题讨论】:
标签: python pandas amazon-redshift
您必须使用
将文件从 s3 导入本地或 ec2aws s3 cp
命令。在本地获得文件后,只需通过 pandas 库读取它。
import pandas as pd
df = pd.read_csv('/file-path/filename')
PS - S3 部分文件只是一个带有您选择的分隔符的常规 csv 文件。
如果我做了一个错误的假设,请发表评论,我会重新调整我的答案。
【讨论】:
如果你想从redshift获取数据到pandas(或从pandas获取数据到redshift),只需使用这个包:
【讨论】: