如何将多个巨大的 csv（具有不同的列）加载到 AWS S3答案

【问题标题】：How to load multiple huge csv (with different columns) into AWS S3如何将多个巨大的 csv（具有不同的列）加载到 AWS S3
【发布时间】：2018-10-27 07:07:12
【问题描述】：

我有大约 50 个不同结构的 csv 文件。每个 csv 文件有近 1000 列。我正在使用 DictReader 在本地合并 csv 文件，但是合并需要太多时间。方法是合并 1.csv 和 2.csv 以创建 12.csv。然后将 12.csv 与 3.csv 合并。这不是正确的做法。

for filename in inputs:
    with open(filename, "r", newline="") as f_in:
      reader = csv.DictReader(f_in)  # Uses the field names in this file

由于我必须最终将这个巨大的单个 csv 上传到 AWS，我正在考虑一个更好的基于 AWS 的解决方案。关于如何导入这些多个不同结构的 csv 并将其合并到 AWS 中的任何建议？

【问题讨论】：

标签： amazon-s3 amazon-dynamodb amazon-data-pipeline

【解决方案1】：

启动 EMR 集群并将文件与 Apache Spark 合并。这使您可以完全控制架构。例如，This answer 可能会有所帮助。

或者，您也可以试试运气，看看AWS Glue 在创建crawler 时如何处理多个架构。

在这两种情况下，您都应该将数据复制到 s3。

【讨论】：

谢谢。我认为这应该有效。我将尝试更新此线程中的结果。