【问题标题】:What's the quickest way of consolidating 200 large (50mb to 500mb) CSV files? [closed]合并 200 个大型(50mb 到 500mb)CSV 文件的最快方法是什么? [关闭]
【发布时间】:2020-06-05 18:00:02
【问题描述】:

我有大约 200 个大型 CSV 数据集。都是一样的格式。其中大约一半> 100mb。我需要一种将它们整合到 1 个(或几个数据库)中的方法。

我曾尝试使用数据工厂将它们放入一个 azure 数据库,但只上传一个 csv 就花了很多时间,更不用说 200 个了。

谁能推荐一种将这些文件放入某种数据库的快速且相对轻松的方法? (理想情况下可以支持 SQL 提取)

【问题讨论】:

  • 几乎任何数据库?例如mysqldev.mysql.com/doc/refman/8.0/en/load-data.html
  • 打开大文本文件的最佳程序(根据我的经验)是非免费的 Textpad,尽管狂热者反对产品推荐,所以在你被山羊牺牲之前,拿走你得到的东西并删除问题.
  • 你有 MS SQL SERVER 吗?
  • 也可以试试 PowerBI,它是免费的,内部使用 mssql。
  • 我会编写一个 bash 脚本,按照@hidden_​​4003 的建议将每个文件的文件导入 MySQL。

标签: sql-server csv etl


【解决方案1】:

这将是您的 Python 脚本的基本大纲:supplied by

fout=open("out.csv","a")
# first file:
for line in open("sh1.csv"):
    fout.write(line)
# now the rest:    
for num in range(2,201):
    f = open("sh"+str(num)+".csv")
    f.next() # skip the header
    for line in f:
         fout.write(line)
    f.close() # not really needed
fout.close()

另一个example

另一个应该适合你的example

【讨论】:

  • 我想说最好的是混合。使用 python 合并,然后使用 SSIS 包导入一个海量 CSV
猜你喜欢
  • 2015-12-16
  • 2013-08-11
  • 2013-03-03
  • 1970-01-01
  • 2010-09-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多