【发布时间】:2020-09-03 20:39:28
【问题描述】:
我有一个包含多个日期文件夹的 zip 文件,在每个文件夹中,我有一个包含日期和多个 csv 文件的 datestamp.txt。
例如:
在 Archives.zip 中: \文件夹1 \文件夹2
在每个文件夹中:
DATESTAMP.txt
a.csv
b.csv
所以我从上游下载了这个包含多天数据的 zip 文件,日期信息包含在 datestamp.txt 文件中(只是一个像 20200903 这样的日期戳),我怎样才能处理最新的日期 csv 文件? (Folder1/datestamp.txt: 20200903,Folder2/datestamp.txt: 20200904,所以我只想拥有Folder2的csv文件)
我尝试先从 txt 文件中读取日期并对其进行排序。
from zipfile import ZipFile
zip_file = ZipFile('data\Archives.zip')
timestamp={text_file.filename: pd.read_csv(zip_file.open(text_file.filename),header=None)
for text_file in zip_file.infolist() if text_file.filename.endswith('.txt')}
dfs = {text_file.filename: pd.read_csv(zip_file.open(text_file.filename))
for text_file in zip_file.infolist() if text_file.filename.endswith('.csv')}
有没有办法直接从 datestamp.txt 中获取日期,然后只读取最新的 a.csv 和 b.csv?
谢谢
【问题讨论】: