【发布时间】:2018-03-21 22:22:18
【问题描述】:
我有一个大型数据框 df,我有一个完整的列表 indices df.index 中的唯一元素。我现在想创建一个由indices 中的元素索引的所有子数据框的列表;具体
list_df = [df.loc[x] for x in indices]
虽然运行此命令需要很长时间(df 大约有 3e6 行和 3e3 唯一索引)。这是执行此操作的合理方式吗?我很乐意收到任何可以改善此问题和相关问题的性能的 cmets 或建议。
提前致谢!
【问题讨论】:
-
如果反对者能让我知道如何改进我的问题,我会很高兴。谢谢!
-
你可能想看看
np.array_split。
标签: python performance pandas dataframe