熊猫：切片多索引与许多索引答案

【问题标题】：pandas: slice Multindex with many indices熊猫：切片多索引与许多索引
【发布时间】：2019-10-28 04:38:09
【问题描述】：

我有一个数据框d，其中包含大约100,000,000 行和3 列。它看起来像这样：

import pandas as pd 

In [17]: d = pd.DataFrame({'id': ['a', 'b', 'c', 'd', 'e'], 'val': [1, 2, 3, 4, 5], 'n': [34, 22, 95, 86, 44]}) 

In [18]: d.set_index(['id', 'val'], inplace = True)

我有另一个数据框，其值为id 和val，我想保留在d 中。我想保留大约 600,000 个 id 和 val 组合：

In [20]: keep = pd.DataFrame({'id':['a', 'b'], 'val' : [1, 2]})

我已经通过以下方式进行了尝试：

In [21]: keep.set_index(['id', 'val'], inplace = True)

In [22]: d.loc[d.index.isin(keep.index), :] 
Out [22]:         
                   n
         id val    
          a  1    34
          b  2    22

这可行，但看起来很笨重而且很慢。这里有更好的方法吗？在 Pandas 中对 Multindex 进行切片的最快方法是什么？

【问题讨论】：

操作！请接受WeNYoBen 的回答，因为我相信您会获得 2 倍的速度。
谢谢！请注意，MultiIndex.from_frame 是 .24 中的新内容。烦人的是，我必须在带有 pandas .23 的服务器上运行它。
那么组合应该可以工作d.reindex(list(zip(*map(keep.get, keep)))])
完美，谢谢！这似乎比 .loc

标签： python pandas indexing slice

【解决方案1】：

使用loc 索引d 使用keep：

# d.loc[pd.MultiIndex.from_arrays([keep['id'], keep['val']]))]
d.reindex(pd.MultiIndex.from_arrays([keep['id'], keep['val']])))

         n
id val    
a  1    34
b  2    22

在哪里，

pd.MultiIndex.from_arrays([keep['id'], keep['val']])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           codes=[[0, 1], [0, 1]],
           names=['id', 'val'])

从 keep 生成一个用于过滤的 MultiIndex。

另一种选择是尝试与df.merge 合并：

d.merge(keep, left_index=True, right_on=['id', 'val'])

    n id  val
0  34  a    1
1  22  b    2

d.merge(keep, left_index=True, right_on=['id', 'val']).set_index(['n', 'id'])

       val
n  id     
34 a     1
22 b     2

甚至，

d.join(keep.set_index(['id', 'val']), how='inner')

         n
id val    
a  1    34
b  2    22

【讨论】：

这很可爱d.merge(keep, on=[*keep]).set_index([*keep])
@piRSquared Nice，适用于具有这些列名称的示例：)

【解决方案2】：

loc 获取用于引用MultiIndex 的元组列表

d.loc[[*keep.itertuples(index=False)]]

         n
id val    
a  1    34
b  2    22

做同样事情的更令人讨厌的方式。（实际上不是推荐）

d.loc[[*zip(*map(keep.get, keep))]]

         n
id val    
a  1    34
b  2    22

优点是少了 3 个字符。您只需要牺牲了解正在发生的事情。

【讨论】：

我喜欢这种简洁性，但我怀疑itertuples 会解决“在 Pandas 中对 Multindex 进行切片的最快方法是什么？”。第二个应该。
谢谢 -- d.loc[[*keep.itertuples(index=False)]] 给了我一个语法错误，但 d.loc[keep.itertuples(index=False)] 有效。
@svenkatesh 这是一个 python 版本问题。使用适合您的方法
@cs95 keep.itertuples(index=False, name=False) 一样快。是命名元组的创建减慢了它的速度。

【解决方案3】：

使用reindex

d.reindex(pd.MultiIndex.from_frame(keep))
Out[151]: 
         n
id val    
a  1    34
b  2    22

【讨论】：

TIL pd.MultiIndex.from_frame
这个答案比我的有两个优点：1. reindex 更快，我应该使用它而不是loc，但我想要更少的字符。 2. pd.MultiIndex.from_frame 也很快。
是的，我确实把这个问题和 TIL from_frame 搞砸了。手感不错！
@WeNYoBen 这适用于我的问题的玩具示例，当我在 d 上有一个唯一的 MultiIndex 时。在我的真实数据集中，我得到以下信息：Exception: cannot handle a non-unique multi-index! 有什么建议吗？
@svenkatesh 那么你可能需要使用 isin 方法，同样为了代码安全，最好不要保留重复索引。