【问题标题】:How to get a random (bootstrap) sample from pandas multiindex如何从熊猫多索引中获取随机(引导)样本
【发布时间】:2023-03-13 17:42:03
【问题描述】:

我正在尝试从 Pandas 中的多索引数据框创建引导样本。下面是一些代码来生成我需要的那种数据。

from itertools import product
import pandas as pd
import numpy as np

df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
                       'group2': [13, 18, 20, 77, 109, 123],
                       'value1': [1.1, 2, 3, 4, 5, 6],
                       'value2': [7.1, 8, 9, 10, 11, 12]
                       })
df = df.set_index(['group1', 'group2'])

print df

df 数据框如下所示:

                   value1  value2
group1 group2                
1      13         1.1     7.1
       18         2.0     8.0
       20         3.0     9.0
2      77         4.0    10.0
       109        5.0    11.0
3      123        6.0    12.0

我想从第一个索引中获取随机样本。例如,假设随机值 np.random.randint(3,size=3) 产生 [3,2,2]。我希望生成的数据框看起来像:

                   value1  value2
group1 group2                
3      123        6.0    12.0
2      77         4.0    10.0
       109        5.0    11.0
2      77         4.0    10.0
       109        5.0    11.0

我花了很多时间对此进行研究,但我无法找到一个类似的例子,其中多索引值是整数,二级索引是可变长度的,并且主索引样本是重复的。这就是我认为合适的引导实现的方式。

【问题讨论】:

    标签: python pandas sampling multi-index


    【解决方案1】:

    试试:

    df.unstack().sample(3, replace=True).stack()
    

    【讨论】:

    • 不适用于大数据集:ValueError: Unstacked DataFrame is too big,导致int32溢出
    • @Amin 4.5 岁的答案。问一个新的并提及大型数据集。对内存和cpu效率的要求
    猜你喜欢
    • 1970-01-01
    • 2019-01-26
    • 2018-07-17
    • 1970-01-01
    • 2021-10-03
    • 2016-10-16
    • 2019-01-19
    • 2018-06-13
    • 2018-08-04
    相关资源
    最近更新 更多