【发布时间】:2018-12-18 09:57:19
【问题描述】:
我目前正在学习 Python 进行数据操作。我编写了一个基本脚本来获取两个 csv 文件并根据时间戳合并它们,并生成另一个 csv 文件,它是这些合并数据集的结果。
但是,我努力创建一种方法来合并位于基于时间戳的目录中的多个 csv 文件。这是我目前拥有的:
import pandas as pd
from datetime import datetime
dataset1 = pd.read_csv('ds1.csv', index_col=0, parse_dates=[0])
dataset2 = pd.read_csv('ds2.csv', index_col=0, parse_dates=[0])
combinecsv = pd.merge(dataset1,dataset2, on='DateTime',how = 'outer')
combinecsv.to_csv(r"C:\Users\General\Documents\Data\combined.csv")
validcsv = pd.merge(dataset1,dataset2, on='DateTime',how = 'inner')
validcsv.to_csv(r"C:\Users\General\Documents\Data\valid.csv")
任何关于在哪里查看以便能够学习如何基于时间戳合并多个 (10+) csv 文件的建议或指示将不胜感激。
谢谢!
【问题讨论】:
-
您是否正在努力寻找一种迭代多个文件的方法,并且您是否希望避免在从两个已知文件到任意数量的未知文件的代码中重复自己?还是我误解了你的问题?
-
对不起,我解释得不好,但基本上如果有 50 个 csv 文件,通过并尝试根据时间戳合并它们会很麻烦。相反,会选择一个包含所有 CSV 文件的目录,并且对于那里的所有文件,它会根据时间戳合并它们。这正是我的想法,但可能有更优雅、更有效的方法。
标签: python python-3.x pandas