【发布时间】:2018-10-03 19:16:46
【问题描述】:
我正在使用 AWS S3、Glue 和 Athena,设置如下:
S3 --> 胶水 --> 雅典娜
我的原始数据以 CSV 文件的形式存储在 S3 上。我正在使用 Glue 进行 ETL,并且我正在使用 Athena 来查询数据。
由于我使用的是 Athena,因此我想将 CSV 文件转换为 Parquet。我现在正在使用 AWS Glue 来执行此操作。这是我正在使用的当前流程:
- 运行 Crawler 以读取 CSV 文件并填充数据目录。
- 运行 ETL 作业以从数据目录创建 Parquet 文件。
- 运行爬虫以使用 Parquet 文件填充数据目录。
Glue 作业一次只允许我转换一个表。如果我有很多 CSV 文件,这个过程很快就会变得难以管理。有没有更好的方法,也许是“正确”的方法,使用 AWS Glue 或其他一些 AWS 服务将 许多 CSV 文件转换为 Parquet?
【问题讨论】:
标签: amazon-s3 parquet amazon-athena aws-glue