合并 200 个大型（50mb 到 500mb）CSV 文件的最快方法是什么？ [关闭]答案

【问题标题】：What's the quickest way of consolidating 200 large (50mb to 500mb) CSV files? [closed]合并 200 个大型（50mb 到 500mb）CSV 文件的最快方法是什么？ [关闭]
【发布时间】：2020-06-05 18:00:02
【问题描述】：

我有大约 200 个大型 CSV 数据集。都是一样的格式。其中大约一半> 100mb。我需要一种将它们整合到 1 个（或几个数据库）中的方法。

我曾尝试使用数据工厂将它们放入一个 azure 数据库，但只上传一个 csv 就花了很多时间，更不用说 200 个了。

谁能推荐一种将这些文件放入某种数据库的快速且相对轻松的方法？（理想情况下可以支持 SQL 提取）

【问题讨论】：

几乎任何数据库？例如mysqldev.mysql.com/doc/refman/8.0/en/load-data.html
打开大文本文件的最佳程序（根据我的经验）是非免费的 Textpad，尽管狂热者反对产品推荐，所以在你被山羊牺牲之前，拿走你得到的东西并删除问题.
你有 MS SQL SERVER 吗？
也可以试试 PowerBI，它是免费的，内部使用 mssql。
我会编写一个 bash 脚本，按照@hidden_4003 的建议将每个文件的文件导入 MySQL。

标签： sql-server csv etl

【解决方案1】：

这将是您的 Python 脚本的基本大纲：supplied by

fout=open("out.csv","a")
# first file:
for line in open("sh1.csv"):
    fout.write(line)
# now the rest:    
for num in range(2,201):
    f = open("sh"+str(num)+".csv")
    f.next() # skip the header
    for line in f:
         fout.write(line)
    f.close() # not really needed
fout.close()

另一个example

另一个应该适合你的example

【讨论】：

我想说最好的是混合。使用 python 合并，然后使用 SSIS 包导入一个海量 CSV