【发布时间】:2023-04-07 03:25:02
【问题描述】:
我有大量的 pandas 数据框 > 5000 个形状为 3000x3000 的浮点值,密度为 60%(即 40% 的值是 NaN)。这些框架具有相同的索引和列。
我想在这些框架上进行操作,例如添加所有这些。如果我按顺序执行此操作,则需要 20 多分钟。有没有有效的方法可以对它们进行操作(例如求和)?
知道这些数据帧不密集,我怎样才能使这个进程的内存有效?
【问题讨论】:
-
您是否需要一次处理所有列?您可以按列标题阅读
df,并重复一组列宽 -
有pyspark之类的大数据处理工具
-
我不会一次需要所有的列。
标签: python pandas bigdata data-science