pandas 中具有多索引的高级横截面答案

【问题标题】：Advanced cross-section with multi-index in pandaspandas 中具有多索引的高级横截面
【发布时间】：2014-06-17 08:09:45
【问题描述】：

我有以下数据框：

lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)]
col = pd.MultiIndex.from_tuples(lb, names=['first','second','third'])
df = pd.DataFrame(randn(5,12), columns=col)

first          A                                                           B  \
second         a                             b                             a   
third          1         2         3         1         2         3         1   
0       1.597958  2.054695  0.449745 -0.990393  0.780978 -0.590558 -0.691706   
1      -0.093841 -1.203769  1.779555 -0.299931 -0.411360  0.122852 -0.250156   
2       0.025183  0.514480 -0.420666  1.574669  0.962010  1.278237 -0.976286   
3      -1.028288 -0.506581  0.880370  1.513487 -0.066479 -0.100231  0.785042   
4      -1.635642  0.464074 -0.335941 -0.034194  0.412519 -0.672058  0.113886   

first                                                     
second                             b                      
third          2         3         1         2         3  
0       1.954769  0.705860 -1.712058  1.015807  1.245232  
1      -2.037299 -0.120649 -0.114652 -0.686707 -0.993540  
2       0.918084 -0.892378 -0.741131 -2.547121  0.797637  
3       0.000077  2.123063  0.903571  1.972190 -1.179325  
4      -1.145241 -1.773182  0.407046 -0.301640 -0.173261

我想获取2和3的所有列，也就是……像

df.xs([2,3], level='third', axis=1, drop_level=False)

但这不起作用。我该如何进行？

【问题讨论】：

标签： python pandas

【解决方案1】：

这是 0.14.0 中的一项新功能，请参阅 whatsnew here。这有效地取代了对.xs 的需求。

In [8]: idx = pd.IndexSlice

In [9]: df.loc[:,idx[:,:,[2,3]]]
Out[9]: 
first          A                                       B                              
second         a                   b                   a                   b          
third          2         3         2         3         2         3         2         3
0       1.770120 -0.362269 -0.804352  1.549652  0.069858 -0.274113  0.570410 -0.460956
1      -0.982169  2.044497  0.571353  0.310634 -1.865966 -0.862613  0.124413  0.645419
2      -1.412519  0.168448  0.081467 -0.220464  1.033748  1.561429  0.094363  0.254768
3      -0.653458 -0.978661  0.158708 -0.818675 -1.122577  0.026941  2.678548  0.864817
4      -0.555179 -0.155564  1.148956  1.438523 -1.254660  0.609254 -0.970612  1.519028

要减去这一点并非易事。

[107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)

In [108]: df
Out[108]: 
first    A                       B                    
second   a           b           a           b        
third    1   2   3   1   2   3   1   2   3   1   2   3
0        0   1   2   3   4   5   6   7   8   9  10  11
1       12  13  14  15  16  17  18  19  20  21  22  23
2       24  25  26  27  28  29  30  31  32  33  34  35
3       36  37  38  39  40  41  42  43  44  45  46  47
4       48  49  50  51  52  53  54  55  56  57  58  59

Pandas 想要对齐 rhs 侧（毕竟你要减去不同的索引），所以你需要手动广播这个。这是一个关于此的问题：https://github.com/pydata/pandas/issues/7475

In [109]: df.loc[:,idx[:,:[2,3]]] = df.loc[:,idx[:,:,[2,3]]]-np.tile(df.loc[:,idx[:,:,1]].values,2)
Out[109]: 
first   A           B         
second  a     b     a     b   
third   2  3  2  3  2  3  2  3
0       1 -1 -2 -4  7  5  4  2
1       1 -1 -2 -4  7  5  4  2
2       1 -1 -2 -4  7  5  4  2
3       1 -1 -2 -4  7  5  4  2
4       1 -1 -2 -4  7  5  4  2

【讨论】：

嘿，这是个好消息@Jeff！它使切片更容易。现在与此相关，这是我的最终目标：如何将每个多索引的第 1 列减去第 2,3 列？
它更接近我正在寻找的内容，但我想保持数据框中的第 1 列不变。在我的应用程序中，第 1 列是减去其他列的参考数据。多索引是测量的不同“运行”。
我更新了，您可以简单地使用相同的掩码进行设置（具有讽刺意味的是，这就是 rhs 并不简单的“原因”）。
太好了，这就是我想要的！有点奇怪，在多索引数据帧的列中没有一种集成的方法来进行计算，但是这个技巧很简单并且效果很好。谢谢@Jeff
但尝试做的事情一点也不明显也不简单 - 你试图以一种非常奇怪的方式进行广播

【解决方案2】：

看来您不能将xs-函数与多个键一起使用。可能存在更高级的切片，但我会尽可能简单并生成符合我需要的部分多索引对象：

cols = df.columns
thirdlvl = cols.get_level_values('third')

partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]

通过这些列，您可以获得所需的部分数据框：

print df[partialcolumns]

first          A                                       B                              
second         a                   b                   a                   b          
third          2         3         2         3         2         3         2         3
0       1.103063  1.036151 -0.018996  1.436792 -0.956119  1.587688  2.262837 -1.059619
1       0.950664  1.847895 -1.172043  0.752676 -0.091956 -0.431509 -0.653317 -0.545843
2       0.165655 -0.180710 -1.844222 -0.836338  1.687806 -0.469707 -0.374222  0.132809
3      -0.275194  0.141292  1.021046 -0.010747  1.725614  0.530589  0.106327  0.138661
4       0.371840  0.455063 -2.643567  0.406322 -0.717277  0.667969  0.660701 -1.324643

编辑：下面的简单代码当然也会找到正确的列

 partialcols = [col for col in cols if col[2] in [2,3]]

【讨论】：

感谢@Gregor，这可行，但 Jeff 指出了 Pandas 0.14 的一个新功能，该功能更有效。看看吧！
感谢@Jeff 指向IndexSlice 功能，我至今也没有使用过。