【问题标题】:How do you modify file content based on a certain pattern in S3如何根据 S3 中的特定模式修改文件内容
【发布时间】:2016-07-01 17:55:13
【问题描述】:

我在 S3 文件夹(例如 s3://data/)中有许多 json 文件(示例如下),格式为 foo.json.gz、foo1.json.gz、foo2.json.gz。其中一个类别(例如 1010)被错误分配,需要将所有文件更改为 1020。我们如何进行此更改并在 S3 中使用修改后的内容重新打包这些文件?

foo.json
    {
      "flower": "lilly",
      "animal": "cat",
      "category": "1010"
    }
    {
      "flower": "rose",
      "animal": "dog",
      "category": "1000"
    }
    {
      "flower": "daisy",
      "animal": "cat",
      "category": "1010"
    }

【问题讨论】:

    标签: hadoop apache-spark amazon-s3


    【解决方案1】:

    最简单有效的方法是:

    1. 在与 Bucket 位于同一区域的 EC2 实例中获取所有这些文件,以最大限度地降低成本。(使用 aws cli
    2. 解压 *.gz 文件(使用gunzip
    3. 务实地更新json文件。(使用php
    4. 重新压缩文件。
    5. 将文件复制回 S3。(使用 aws cli

    【讨论】:

    • 文件非常大,我不认为这是一个选项
    • 顾名思义,S3 太简单了,无法完成您希望它完成的工作。您需要 Lambda 或 EC2 实例来进行更改。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-09-12
    • 1970-01-01
    • 1970-01-01
    • 2020-01-12
    • 1970-01-01
    相关资源
    最近更新 更多