【问题标题】:How to load multiple huge csv (with different columns) into AWS S3如何将多个巨大的 csv(具有不同的列)加载到 AWS S3
【发布时间】:2018-10-27 07:07:12
【问题描述】:

我有大约 50 个不同结构的 csv 文件。每个 csv 文件有近 1000 列。我正在使用 DictReader 在本地合并 csv 文件,但是合并需要太多时间。方法是合并 1.csv 和 2.csv 以创建 12.csv。然后将 12.csv 与 3.csv 合并。这不是正确的做法。

for filename in inputs:
    with open(filename, "r", newline="") as f_in:
      reader = csv.DictReader(f_in)  # Uses the field names in this file

由于我必须最终将这个巨大的单个 csv 上传到 AWS,我正在考虑一个更好的基于 AWS 的解决方案。关于如何导入这些多个不同结构的 csv 并将其合并到 AWS 中的任何建议?

【问题讨论】:

    标签: amazon-s3 amazon-dynamodb amazon-data-pipeline


    【解决方案1】:

    启动 EMR 集群并将文件与 Apache Spark 合并。这使您可以完全控制架构。例如,This answer 可能会有所帮助。

    或者,您也可以试试运气,看看AWS Glue 在创建crawler 时如何处理多个架构。

    在这两种情况下,您都应该将数据复制到 s3。

    【讨论】:

    • 谢谢。我认为这应该有效。我将尝试更新此线程中的结果。
    猜你喜欢
    • 2021-12-25
    • 2017-05-15
    • 2023-01-18
    • 2019-06-10
    • 2015-06-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多