【问题标题】:Transform files from one S3 bucket to another将文件从一个 S3 存储桶转换到另一个
【发布时间】:2021-08-15 06:07:39
【问题描述】:

我是亚马逊 AWS 的新手。我有一个用例从一个 s3 存储桶读取 ORC 文件,将其转换为 JSON 文件并写入另一个 s3 存储桶。 容量约为 100G,每天大约有一千个文件。 我应该能够按需运行或安排每天运行。我应该考虑哪些选项?

任何想法都会有所帮助

【问题讨论】:

  • 这一切都取决于文件的大小,你有多少。您根本没有在问题中提供太多信息,甚至没有开始考虑这个问题。
  • @Marcin 卷大约 100G,每天大约有一千个文件。
  • 我的意思是一个文件有多大?如果它很小,可以使用 lambda,否则必须考虑其他服务。
  • @Marcin 文件的最大大小约为 100MB-200MB
  • 那么这些文件是一个一个上传的,每次上传后都要转换一下吗?

标签: amazon-web-services amazon-s3 aws-lambda orc


【解决方案1】:

亚马逊雅典娜

您可以使用 Amazon Athena 通过CREATE TABLE AS 命令转换文件格式。见:Creating a Table from Query Results (CTAS) - Amazon Athena

然后问题就变成了如何将命令发送给 Athena。为此,您可以安排一个 AWS Lambda 函数运行,该函数启动一个 Amazon EC2 实例。然后,在实例上运行脚本以将所有命令发送到 Amazon Athena。见:Auto-Stop EC2 instances when they finish a task - DEV Community

AWS Glue ETL 作业

或者,您可以创建一个使用 Spark 转换数据的 AWS Glue ETL 作业。见:Built-In Transforms - AWS Glue

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-06-02
    • 2018-11-22
    • 1970-01-01
    • 2023-02-01
    • 2020-05-29
    • 1970-01-01
    • 2020-07-05
    • 1970-01-01
    相关资源
    最近更新 更多