【发布时间】:2020-12-18 19:52:17
【问题描述】:
我希望在大约 100,000 个文本文件上训练模型。 Pandas 遇到了一些内存问题,因此决定迁移到 Dask。
我正在尝试将文件读入已存储文件路径的 dask DataFrame。在 pandas 中,我可以简单地执行以下操作:
ddf['rawtext'] = [open(file, 'rt').read() for file in ddf['filepath']]
但这会产生NotImplementedError 错误。
有没有办法有效地将文本文件读入 Dask?
【问题讨论】:
标签: python pandas dask dask-dataframe