按类别过滤熊猫数据框的最快方法答案

【问题标题】：Fastest method of filtering a pandas data frame by category按类别过滤熊猫数据框的最快方法
【发布时间】：2017-09-06 11:46:07
【问题描述】：

我有一个非常大的数据框，其中包含 1 亿行和分类列。我想知道是否有比使用.isin() 方法或.join() 提到的here 方法更快的按类别选择行的方法。

鉴于数据已经分类，我认为选择类别应该很快，但我运行的一些测试表现令人失望。我发现的唯一其他解决方案来自 here，但该解决方案似乎不适用于 pandas 0.20.2。

这是一个示例数据集。

import pandas as pd
import random
import string
df = pd.DataFrame({'categories': [random.choice(string.ascii_letters) 
                                  for _ in range(1000000)]*100,
                   'values': [random.choice([0,1]) 
                              for _ in range(1000000)]*100})
df['categories'] = df['categories'].astype('category')

使用.isin()进行测试：

%timeit df[df['categories'].isin(list(string.ascii_lowercase))]
44 s ± 894 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

使用.join()：

%timeit df.set_index('categories').join(
    pd.Series(index=list(string.ascii_lowercase), name='temp'), 
    how='inner').rename_axis('categories').reset_index().drop('temp', 1)
24.7 s ± 1.69 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

【问题讨论】：

仅供参考，时间高度取决于这里的随机种子。你应该解决一个问题。
在运行了更多测试后，每种方法都使用相同的随机种子并使用我的真实数据进行测试，我发现map 方法始终更快，因此我将其标记为解决方案。

标签： python performance pandas

【解决方案1】：

这是一种类似但不同的方法，它直接比较值而不是使用isin。

基本map/lambda 比较：

%timeit df[df['categories'].map(lambda x: x in string.ascii_lowercase)]
> 1 loop, best of 3: 12.3 s per loop

使用isin：

%timeit df[df['categories'].isin(list(string.ascii_lowercase))]
> 1 loop, best of 3: 55.1 s per loop

版本：Py 3.5.1 / IPython 5.1.0 / Pandas 0.20.3

背景：我在one of the SO posts 中注意到您链接到的评论者提到isin 需要在执行期间创建set()，因此跳过该步骤并进行基本的列表查找似乎是这里的加速。

Disclamer：不是我经常处理的秤类型，因此可能会有更快的选择。

编辑：JohnGalt 在 cmets 中请求的额外细节：

df.shape
> (100000000, 2)
df.dtypes
> categories    category
 values           int64
 dtype: object

为了创建示例数据，我从最初的问题中复制/粘贴了示例 DF。在 MBP 上运行，2015 年初的模型。

【讨论】：

您能否添加完成这些计时的df.shape 和df.dtypes？
@JohnGalt 我明白你为什么问（非常快的时间），我刚刚重新运行并得到了不同的结果。两次运行之间的唯一区别是我刚刚将我的 dev Pandas 从 0.19 升级到了当前的 pip 版本 0.20。我已经用新的时间更新了答案，但会用旧的 python 再试一次，看看是否更快的结果回来了。
这似乎表现得更好。使用问题中的相同示例数据，我得到以下性能：8.7 s ± 1.23 s per loop (mean ± std. dev. of 7 runs, 1 loop each) 我只是想知道使用类别的cat 方法是否可以做任何事情。例如，这相当快：df['categories'].cat.set_categories(list(string.ascii_lowercase)) 但在结果上使用.loc 会慢得多。
@kayoz 很高兴我给你带来了一些小的改进。不幸的是，我对类别不太熟悉，因此无法提供那里的经验。
@JohnGalt 刚刚添加

【解决方案2】：

这是对 1/10 样本的运行。 Groupby 自然地利用了分类。目前，为 Categorical 实现 df.loc[list_of_items] 效率不是很高，但可以在后台利用它。

In [68]: %timeit -n 3 -r 1 df[df['categories'].isin(list(string.ascii_lowercase))]
3.67 s +- 0 ns per loop (mean +- std. dev. of 1 run, 3 loops each)

In [69]: s = set(list(string.ascii_lowercase))

In [70]: %timeit -n 3 -r 1 df.groupby('categories', as_index=False).filter(lambda x: x.name in s)
1.09 s +- 0 ns per loop (mean +- std. dev. of 1 run, 3 loops each)

In [71]: result2 = df.groupby('categories', as_index=False).filter(lambda x: x.name in s)

In [72]: result1 = df[df['categories'].isin(list(string.ascii_lowercase))]
result1.equals

In [73]: result1.equals(result2)
Out[73]: True

【讨论】：

感谢杰夫的回答。我发现 Phil 的 map 解决方案比 groupby 更快。我想知道是否可以使用df['categories'].cat.set_categories() 作为掩码？因为这个操作看起来很快。