【问题标题】:How do I read Athena-created Parquet tables into python如何将 Athena 创建的 Parquet 表读入 python
【发布时间】:2020-08-22 05:59:02
【问题描述】:

我使用 Athena CTAS 语句创建了一个表。根据 Glue,我看到该表存储在我的 s3 存储桶中。我进一步确认在我的 s3 存储桶中的预期位置有文件。

但是,这些文件不是 parquet 文件(它们没有扩展名)。当我尝试使用 pd.read_parquet 将它们读入 python 时,我收到错误“在页脚中找不到 Parquet 魔术字节。文件已损坏或者这不是 parquet 文件。”。当我尝试使用pd.read_csv 查询表并读取 csv 输出时,会发生类似的错误。在那里,错误是“'utf-8'编解码器无法解码位置 0 的字节 0xee:无效的继续字节”。我尝试使用 awswrangler 并得到了同样的错误。

我很确定这些错误与我放在存储桶上的 SSE_S3 加密有关。但是,我不知道如何在 Athena 之外与这些文件进行实际交互。

【问题讨论】:

标签: amazon-s3 amazon-athena


【解决方案1】:

解决方法是默认 Athena 工作组已打开 CSE_KMS 加密。我无法快速弄清楚如何通过awswrangler 传递这些选项,因此我采用了使用另一个没有加密的工作组重新创建表的捷径。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-02-22
    • 1970-01-01
    • 2016-03-16
    • 2019-09-07
    相关资源
    最近更新 更多