【发布时间】:2021-04-13 14:30:47
【问题描述】:
我想将多个 csv 文件读入一个单独的 dask 数据帧。由于某些原因,我的原始数据的某些部分丢失了(不知道为什么?!)。我想知道将它们全部读入dask的最佳方法是什么?我使用了一个 for 循环,但不确定它是否正确。
for file in os.listdir(dds_glob): if file.endswith('issued_processed.txt'): ddf = dd.read_fwf(os.path.join(dds_glob,file), colspecs=cols, header=None, dtype=object, names=names)
或者我应该使用这样的东西:
dfs = delayed(pd.read_fwf)('/data/input/*issued_processed.txt', colspecs=cols, header=None, dtype=object, names=names) ddf = dd.from_delayed(dfs)
【问题讨论】:
标签: python dask dask-dataframe