【问题标题】:Advanced cross-section with multi-index in pandaspandas 中具有多索引的高级横截面
【发布时间】:2014-06-17 08:09:45
【问题描述】:

我有以下数据框:

lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)]
col = pd.MultiIndex.from_tuples(lb, names=['first','second','third'])
df = pd.DataFrame(randn(5,12), columns=col)

first          A                                                           B  \
second         a                             b                             a   
third          1         2         3         1         2         3         1   
0       1.597958  2.054695  0.449745 -0.990393  0.780978 -0.590558 -0.691706   
1      -0.093841 -1.203769  1.779555 -0.299931 -0.411360  0.122852 -0.250156   
2       0.025183  0.514480 -0.420666  1.574669  0.962010  1.278237 -0.976286   
3      -1.028288 -0.506581  0.880370  1.513487 -0.066479 -0.100231  0.785042   
4      -1.635642  0.464074 -0.335941 -0.034194  0.412519 -0.672058  0.113886   

first                                                     
second                             b                      
third          2         3         1         2         3  
0       1.954769  0.705860 -1.712058  1.015807  1.245232  
1      -2.037299 -0.120649 -0.114652 -0.686707 -0.993540  
2       0.918084 -0.892378 -0.741131 -2.547121  0.797637  
3       0.000077  2.123063  0.903571  1.972190 -1.179325  
4      -1.145241 -1.773182  0.407046 -0.301640 -0.173261  

我想获取2和3的所有列,也就是……像

df.xs([2,3], level='third', axis=1, drop_level=False)

但这不起作用。我该如何进行?

【问题讨论】:

    标签: python pandas


    【解决方案1】:

    这是 0.14.0 中的一项新功能,请参阅 whatsnew here。这有效地取代了对.xs 的需求。

    In [8]: idx = pd.IndexSlice
    
    In [9]: df.loc[:,idx[:,:,[2,3]]]
    Out[9]: 
    first          A                                       B                              
    second         a                   b                   a                   b          
    third          2         3         2         3         2         3         2         3
    0       1.770120 -0.362269 -0.804352  1.549652  0.069858 -0.274113  0.570410 -0.460956
    1      -0.982169  2.044497  0.571353  0.310634 -1.865966 -0.862613  0.124413  0.645419
    2      -1.412519  0.168448  0.081467 -0.220464  1.033748  1.561429  0.094363  0.254768
    3      -0.653458 -0.978661  0.158708 -0.818675 -1.122577  0.026941  2.678548  0.864817
    4      -0.555179 -0.155564  1.148956  1.438523 -1.254660  0.609254 -0.970612  1.519028
    

    要减去这一点并非易事。

    [107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)
    
    In [108]: df
    Out[108]: 
    first    A                       B                    
    second   a           b           a           b        
    third    1   2   3   1   2   3   1   2   3   1   2   3
    0        0   1   2   3   4   5   6   7   8   9  10  11
    1       12  13  14  15  16  17  18  19  20  21  22  23
    2       24  25  26  27  28  29  30  31  32  33  34  35
    3       36  37  38  39  40  41  42  43  44  45  46  47
    4       48  49  50  51  52  53  54  55  56  57  58  59
    

    Pandas 想要对齐 rhs 侧(毕竟你要减去不同的索引), 所以你需要手动广播这个。这是一个关于此的问题:https://github.com/pydata/pandas/issues/7475

    In [109]: df.loc[:,idx[:,:[2,3]]] = df.loc[:,idx[:,:,[2,3]]]-np.tile(df.loc[:,idx[:,:,1]].values,2)
    Out[109]: 
    first   A           B         
    second  a     b     a     b   
    third   2  3  2  3  2  3  2  3
    0       1 -1 -2 -4  7  5  4  2
    1       1 -1 -2 -4  7  5  4  2
    2       1 -1 -2 -4  7  5  4  2
    3       1 -1 -2 -4  7  5  4  2
    4       1 -1 -2 -4  7  5  4  2
    

    【讨论】:

    • 嘿,这是个好消息@Jeff!它使切片更容易。现在与此相关,这是我的最终目标:如何将每个多索引的第 1 列减去第 2,3 列?
    • 它更接近我正在寻找的内容,但我想保持数据框中的第 1 列不变。在我的应用程序中,第 1 列是减去其他列的参考数据。多索引是测量的不同“运行”。
    • 我更新了,您可以简单地使用相同的掩码进行设置(具有讽刺意味的是,这就是 rhs 并不简单的“原因”)。
    • 太好了,这就是我想要的!有点奇怪,在多索引数据帧的列中没有一种集成的方法来进行计算,但是这个技巧很简单并且效果很好。谢谢@Jeff
    • 但尝试做的事情一点也不明显也不简单 - 你试图以一种非常奇怪的方式进行广播
    【解决方案2】:

    看来您不能将xs-函数与多个键一起使用。可能存在更高级的切片,但我会尽可能简单并生成符合我需要的部分多索引对象:

    cols = df.columns
    thirdlvl = cols.get_level_values('third')
    
    partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]
    

    通过这些列,您可以获得所需的部分数据框:

    print df[partialcolumns]
    
    first          A                                       B                              
    second         a                   b                   a                   b          
    third          2         3         2         3         2         3         2         3
    0       1.103063  1.036151 -0.018996  1.436792 -0.956119  1.587688  2.262837 -1.059619
    1       0.950664  1.847895 -1.172043  0.752676 -0.091956 -0.431509 -0.653317 -0.545843
    2       0.165655 -0.180710 -1.844222 -0.836338  1.687806 -0.469707 -0.374222  0.132809
    3      -0.275194  0.141292  1.021046 -0.010747  1.725614  0.530589  0.106327  0.138661
    4       0.371840  0.455063 -2.643567  0.406322 -0.717277  0.667969  0.660701 -1.324643
    

    编辑:下面的简单代码当然也会找到正确的列

     partialcols = [col for col in cols if col[2] in [2,3]]
    

    【讨论】:

    • 感谢@Gregor,这可行,但 Jeff 指出了 Pandas 0.14 的一个新功能,该功能更有效。看看吧!
    • 感谢@Jeff 指向IndexSlice 功能,我至今也没有使用过。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-12-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-12-17
    • 2020-08-18
    相关资源
    最近更新 更多