【发布时间】:2020-12-23 05:19:48
【问题描述】:
我在这里尝试做两件事:
- 导入所有 .csv 文件并将它们添加到 df。
- 使用上传的最新文件更新 df。
我已经能够导入一个 .csv 文件:
import pandas as pd
url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/01-22-2020.csv'
pd.read_csv(url).fillna(0)
我可以一个一个地导入所有.csv 文件(或者如果我知道如何提取所有.csv 文件名,则使用循环),但应该有一种更有效的方法。一旦我有了 df,我会“更新”它:
- 提取所有
.csv文件名。 - 检查它们是否都在 df 中(带有日期列)。如果缺少一个,请将缺少的 .csv 文件添加到 df。
我遇到的问题是:(a) 如何以可扩展的方式提取所有 .csv 文件? (b) 有没有办法从 github 文件夹中仅提取以 .csv 结尾的文件名?为了做到以上(2)。
【问题讨论】:
-
Noup,因为文件在网络中。主要问题是从网络文件夹中提取以
.csv结尾的文件名。下面的所有解决方案都假定文件夹是本地的,当它在网络中时。 -
我也在努力解开这个谜