【发布时间】:2020-09-16 02:07:00
【问题描述】:
假设我有以下数据集已成功读入我的笔记本:
data1-format1-1991-1992.csv
data2-format1-1993-1994.csv
data3-format1-1995-1996.csv
data4-format2-1991-1992.csv
data5-format2-1993-1994.csv
data6-format2-1995-1996.csv
我可以轻松地从它们自己的目录中读取这些集合,如下所示:
files1 = [filename for filename in os.listdir(master_dir_1) if filename.startswith("data-")] # would do same for second set of files, in master_dir_2
for filename in files1:
df = pd.read_csv(filename)
print(df)
这会将它们打印在一个帧中 - 但我需要将它们读入,然后根据文件名中的年份 pd.merge() 每个单独的文件。例如,data1-format1-1991-1992.csv 与 data1-format2-1991-1992.csv 结合,依此类推。
该过程将是使用上面的循环从它们自己的目录中读取两组,然后有另一个循环根据文件名中的匹配年份进行组合和保存(我认为)。如何根据年份拆分,并分别保存每个加入的文件,年份在保存的 csv 名称中?我已经有了读取单个数据集和加入/保存的过程,但没有多个读取、加入和保存的过程。
This question 让我了解了一些情况,因为 .format() 的使用方式。
【问题讨论】: