【发布时间】:2020-08-22 05:59:02
【问题描述】:
我使用 Athena CTAS 语句创建了一个表。根据 Glue,我看到该表存储在我的 s3 存储桶中。我进一步确认在我的 s3 存储桶中的预期位置有文件。
但是,这些文件不是 parquet 文件(它们没有扩展名)。当我尝试使用 pd.read_parquet 将它们读入 python 时,我收到错误“在页脚中找不到 Parquet 魔术字节。文件已损坏或者这不是 parquet 文件。”。当我尝试使用pd.read_csv 查询表并读取 csv 输出时,会发生类似的错误。在那里,错误是“'utf-8'编解码器无法解码位置 0 的字节 0xee:无效的继续字节”。我尝试使用 awswrangler 并得到了同样的错误。
我很确定这些错误与我放在存储桶上的 SSE_S3 加密有关。但是,我不知道如何在 Athena 之外与这些文件进行实际交互。
【问题讨论】:
-
你试过 AWS Data wrangler aws-data-wrangler.readthedocs.io/en/latest/stubs/… 吗?
-
我做了并且得到了相同的结果。但是,我已经解决了这个问题,问题是默认的 athena 工作组有额外的加密