【发布时间】:2022-01-16 11:43:44
【问题描述】:
我有一个包含 10K csv 文件的目录。每个文件有 2 列,第 1 列在所有文件中都相同。
我想根据第 1 列内部连接所有文件并获得最终输出,如下面的 sn-p 所示
#Original data of different csv files
#file1.csv
id,A
1,a1
2,a2
3,a3
#file2.csv
id,B
1,b1
2,b2
3,b3
#file3.csv
id,C
1,c1
2,c2
3,c3
#Final Output after using python script with glob pattern to operate on all csv files in a directory
id,A,B,C
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
我正在使用 linux,想知道一种快速/有效的方法来实现这一点。
提前致谢。
【问题讨论】:
-
我不知道实现这一目标的最快或有效方法,但您必须使用
pandas。只需阅读文档,您就会在那里。这可能会有所帮助:pandas.pydata.org/docs/reference/api/pandas.read_csv.html -
也许可以试试看:harelba.github.io/q - 无论如何都没有附属关系