【问题标题】:What is the best approach to sync data from AWS 3 bucket to Azure Data Lake Gen 2将数据从 AWS 3 存储桶同步到 Azure Data Lake Gen 2 的最佳方法是什么
【发布时间】:2021-06-12 01:25:39
【问题描述】:

目前,我使用以下方法将 csv 文件从 AWS S3 下载到本地计算机: aws s3 sync s3://<cloud_source> c:/<local_destination> --profile aws_profile。现在,我想每天使用相同的流程将文件从 AWS 同步到 Azure Data Lake Storage Gen2(单向同步)。 [注意:我只有 S3 数据源的读取/下载权限。]

我想到了解决这个问题的 5 条潜在途径:

  1. 在 Azure 中使用 AWS CLI 命令。 如果不运行 Azure VM,我不完全确定如何做到这一点。另外,我想让我的 AWS 配置文件凭证保留吗?
  2. 使用 Python 的 subprocess 库运行 AWS CLI 命令。我遇到了与选项 1 类似的问题,即 a) 维护 AWS CLI 的持久安装,b) 传递 AWS 配置文件凭据,以及 c) 在没有 Azure VM 的情况下运行。
  3. 使用 Python 的 Boto3 库访问 AWS 服务。过去,Boto3 似乎不支持 AWS sync 命令。因此,像@raydel-miranda 这样的开发人员开发了他们自己的。 [Sync two buckets through boto3]。但是,现在看来 Boto3 有一个 DataSync 类。 [DataSync | Boto3 Docs 1.17.27 documentation]。我还需要在 Azure VM 中运行它还是可以使用 Azure 数据工厂?
  4. 使用 Azure 数据工厂从 AWS S3 存储桶复制数据。 [参见Copy data from Amazon Simple Storage Service by using Azure Data Factory] 我担心的是我想要同步而不是复制。我相信 Azure 数据工厂具有检查文件是否已存在的功能,但如果文件已从 AWS S3 数据源中删除怎么办?
  5. 使用Azure Data Science Virtual Machine 可以:a) 安装 AWS CLI,2) 创建我的 AWS 配置文件来存储访问凭证,以及 3) 运行 aws s3 sync... 命令。

非常感谢有关自动化此过程的任何提示、建议或想法。

【问题讨论】:

    标签: amazon-s3 boto3 aws-cli azure-data-factory-2 azure-data-lake-gen2


    【解决方案1】:

    在列表中再添加一个 :) 6. 请同时查看 Azcopy 选项。 https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-s3?toc=/azure/storage/blobs/toc.json

    我不知道任何有助于同步数据的工具,或多或少都会进行复制,我认为您必须实施。几个快速的想法。 #3) 你可以从批处理服务中运行它。您可以从 Azure 数据工厂启动它。另外,既然是在谈论 Python,你也可以从 Azure 数据块中运行它。

    #4) ADF 对于要删除的文件没有任何同步逻辑。我们可以使用 getMetadat 活动来实现它。 https://docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity

    【讨论】:

    • 感谢您的提示。我将研究 Azcopy、带有批处理服务的 python 和 Azure Databricks 作为潜在的解决方案。
    【解决方案2】:

    AzReplciate 是另一种选择 - 特别是对于非常大的容器https://docs.microsoft.com/en-us/samples/azure/azreplicate/azreplicate/

    【讨论】:

    • 谢谢。我将研究 AzReplicate 示例应用程序。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2023-03-04
    • 2020-11-22
    • 2021-03-26
    • 1970-01-01
    • 2019-09-23
    • 1970-01-01
    • 2022-11-10
    相关资源
    最近更新 更多