【发布时间】:2021-11-21 05:13:49
【问题描述】:
我有一个巨大的数据集(大约 30 GB 大小),我需要将 CSV 分解为更小的 CSV 文件。使用skipRows 争论的传统方式似乎需要很多时间。我认为,如果在阅读了最初的rowSize 之后,这个过程可能会快得多;比如 1000,我们从 CSV 文件中删除这些行,因此在每次迭代之后,我们不必跳过这些行,这基本上是每次都读取这些行数。
有什么方法可以实现吗?
【问题讨论】:
-
您正在寻找术语“块”。此外,您不需要从 csv 文件中删除行,但只需确保您没有读取内存中的整个文件。请参阅:stackoverflow.com/questions/25962114/… 或 pandas.pydata.org/pandas-docs/stable/reference/api/…(搜索块大小)
-
您是否考虑过使用为此目的设计的tool?