【问题标题】:Fastest method of filtering a pandas data frame by category按类别过滤熊猫数据框的最快方法
【发布时间】:2017-09-06 11:46:07
【问题描述】:

我有一个非常大的数据框,其中包含 1 亿行和分类列。我想知道是否有比使用.isin() 方法或.join() 提到的here 方法更快的按类别选择行的方法。

鉴于数据已经分类,我认为选择类别应该很快,但我运行的一些测试表现令人失望。我发现的唯一其他解决方案来自 here,但该解决方案似乎不适用于 pandas 0.20.2。

这是一个示例数据集。

import pandas as pd
import random
import string
df = pd.DataFrame({'categories': [random.choice(string.ascii_letters) 
                                  for _ in range(1000000)]*100,
                   'values': [random.choice([0,1]) 
                              for _ in range(1000000)]*100})
df['categories'] = df['categories'].astype('category')

使用.isin()进行测试:

%timeit df[df['categories'].isin(list(string.ascii_lowercase))]
44 s ± 894 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

使用.join()

%timeit df.set_index('categories').join(
    pd.Series(index=list(string.ascii_lowercase), name='temp'), 
    how='inner').rename_axis('categories').reset_index().drop('temp', 1)
24.7 s ± 1.69 s per loop (mean ± std. dev. of 7 runs, 1 loop each)

【问题讨论】:

  • 仅供参考,时间高度取决于这里的随机种子。你应该解决一个问题。
  • 在运行了更多测试后,每种方法都使用相同的随机种子并使用我的真实数据进行测试,我发现map 方法始终更快,因此我将其标记为解决方案。

标签: python performance pandas


【解决方案1】:

这是一种类似但不同的方法,它直接比较值而不是使用isin

基本map/lambda 比较:

%timeit df[df['categories'].map(lambda x: x in string.ascii_lowercase)]
> 1 loop, best of 3: 12.3 s per loop

使用isin

%timeit df[df['categories'].isin(list(string.ascii_lowercase))]
> 1 loop, best of 3: 55.1 s per loop

版本:Py 3.5.1 / IPython 5.1.0 / Pandas 0.20.3

背景:我在one of the SO posts 中注意到您链接到的评论者提到isin 需要在执行期间创建set(),因此跳过该步骤并进行基本的列表查找似乎是这里的加速。

Disclamer:不是我经常处理的秤类型,因此可能会有更快的选择。

编辑:JohnGalt 在 cmets 中请求的额外细节:

df.shape
> (100000000, 2)
df.dtypes
> categories    category
 values           int64
 dtype: object

为了创建示例数据,我从最初的问题中复制/粘贴了示例 DF。在 MBP 上运行,2015 年初的模型。

【讨论】:

  • 您能否添加完成这些计时的df.shapedf.dtypes
  • @JohnGalt 我明白你为什么问(非常快的时间),我刚刚重新运行并得到了不同的结果。两次运行之间的唯一区别是我刚刚将我的 dev Pandas 从 0.19 升级到了当前的 pip 版本 0.20。我已经用新的时间更新了答案,但会用旧的 python 再试一次,看看是否更快的结果回来了。
  • 这似乎表现得更好。使用问题中的相同示例数据,我得到以下性能:8.7 s ± 1.23 s per loop (mean ± std. dev. of 7 runs, 1 loop each) 我只是想知道使用类别的cat 方法是否可以做任何事情。例如,这相当快:df['categories'].cat.set_categories(list(string.ascii_lowercase)) 但在结果上使用.loc 会慢得多。
  • @kayoz 很高兴我给你带来了一些小的改进。不幸的是,我对类别不太熟悉,因此无法提供那里的经验。
  • @JohnGalt 刚刚添加
【解决方案2】:

这是对 1/10 样本的运行。 Groupby 自然地利用了分类。目前,为 Categorical 实现 df.loc[list_of_items] 效率不是很高,但可以在后台利用它。

In [68]: %timeit -n 3 -r 1 df[df['categories'].isin(list(string.ascii_lowercase))]
3.67 s +- 0 ns per loop (mean +- std. dev. of 1 run, 3 loops each)

In [69]: s = set(list(string.ascii_lowercase))

In [70]: %timeit -n 3 -r 1 df.groupby('categories', as_index=False).filter(lambda x: x.name in s)
1.09 s +- 0 ns per loop (mean +- std. dev. of 1 run, 3 loops each)

In [71]: result2 = df.groupby('categories', as_index=False).filter(lambda x: x.name in s)

In [72]: result1 = df[df['categories'].isin(list(string.ascii_lowercase))]
result1.equals

In [73]: result1.equals(result2)
Out[73]: True

【讨论】:

  • 感谢杰夫的回答。我发现 Phil 的 map 解决方案比 groupby 更快。我想知道是否可以使用df['categories'].cat.set_categories() 作为掩码?因为这个操作看起来很快。
猜你喜欢
  • 2021-05-23
  • 2013-10-23
  • 2019-04-13
  • 1970-01-01
  • 2017-12-15
  • 2021-02-25
  • 1970-01-01
  • 2021-11-11
  • 1970-01-01
相关资源
最近更新 更多