【问题标题】:Query csv tables stored s3 through athena通过athena查询存储s3的csv表
【发布时间】:2019-02-02 02:54:18
【问题描述】:

最近我们开始将备份存储在 aws s3 中。我们需要通过aws athena查询的都是csv文件。 我们试图一张一张地插入表格,但它花费的时间太长,这是相当多的数据。是否有任何我们可以使用的 API 或已经设置好的东西? 我们正准备用 spark 做一些事情,但也许有更简单的方法,或者已经做过的事情。 谢谢

【问题讨论】:

  • We tried to insert the tables one by one - 这是什么意思?一张一张地创建表格? Athena 不支持INSERT

标签: amazon-web-services apache-spark amazon-s3 amazon-athena


【解决方案1】:

您可以简单地在具有所需属性的 CSV 文件之上创建一个外部表。

参考:Create External Table on AWS Athena

您还可以使用 Glue Crawler 并将其配置为自动为您填充表格。

参考:Cataloging tables with a crawler

有不同的 AWS 开发工具包 (here) 可用于自动执行您的任务,例如将文件上传到 S3、创建 athena 表或通过胶水爪编目表。

【讨论】:

    猜你喜欢
    • 2019-08-26
    • 1970-01-01
    • 2019-03-22
    • 1970-01-01
    • 2019-10-06
    • 1970-01-01
    • 1970-01-01
    • 2020-09-19
    • 1970-01-01
    相关资源
    最近更新 更多