numpy.median.reduceat 的快速替代方案答案

【问题标题】：Fast alternative for numpy.median.reduceatnumpy.median.reduceat 的快速替代方案
【发布时间】：2019-11-10 11:09:58
【问题描述】：

关于this answer，有没有一种快速的方法来计算具有不等个元素的组的数组的中位数？

例如：

data =  [1.00, 1.05, 1.30, 1.20, 1.06, 1.54, 1.33, 1.87, 1.67, ... ]
index = [0,    0,    1,    1,    1,    1,    2,    3,    3,    ... ]

然后我想计算每个组的数字和中位数之间的差异（例如，0 组的中位数是1.025，所以第一个结果是1.00 - 1.025 = -0.025）。所以对于上面的数组，结果会显示为：

result = [-0.025, 0.025, 0.05, -0.05, -0.19, 0.29, 0.00, 0.10, -0.10, ...]

由于np.median.reduceat 不存在（还），是否有另一种快速的方法来实现这一点？我的数组将包含数百万行，因此速度至关重要！

可以假设索引是连续且有序的（如果不是，则很容易转换它们）。

性能比较示例数据：

import numpy as np

np.random.seed(0)
rows = 10000
cols = 500
ngroup = 100

# Create random data and groups (unique per column)
data = np.random.rand(rows,cols)
groups = np.random.randint(ngroup, size=(rows,cols)) + 10*np.tile(np.arange(cols),(rows,1))

# Flatten
data = data.ravel()
groups = groups.ravel()

# Sort by group
idx_sort = groups.argsort()
data = data[idx_sort]
groups = groups[idx_sort]

【问题讨论】：

您是否对链接答案中的scipy.ndimage.median 建议计时？在我看来，每个标签不需要相同数量的元素。还是我错过了什么？
那么，当您说数百万行时，您的实际数据集是二维数组吗？您正在对每一行执行此操作？
@Divakar 查看对测试数据问题的编辑
您已经在初始数据中给出了基准，我对其进行了膨胀以保持格式相同。一切都以我的膨胀数据集为基准。现在改不合理

标签： python performance numpy median numpy-ufunc

【解决方案1】：

如果您真的想要加快计算速度，而使用原生 numpy 无法做到这一点，有时您需要编写非惯用的 numpy 代码。

numba 将您的 python 代码编译为低级 C。由于许多 numpy 本身通常与 C 一样快，因此如果您的问题不适合使用 numpy 进行本机矢量化，这最终会很有用。这是一个示例（我假设索引是连续且已排序的，这也反映在示例数据中）：

import numpy as np
import numba

# use the inflated example of roganjosh https://stackoverflow.com/a/58788534
data =  [1.00, 1.05, 1.30, 1.20, 1.06, 1.54, 1.33, 1.87, 1.67]
index = [0,    0,    1,    1,    1,    1,    2,    3,    3] 

data = np.array(data * 500) # using arrays is important for numba!
index = np.sort(np.random.randint(0, 30, 4500))               

# jit-decorate; original is available as .py_func attribute
@numba.njit('f8[:](f8[:], i8[:])') # explicit signature implies ahead-of-time compile
def diffmedian_jit(data, index): 
    res = np.empty_like(data) 
    i_start = 0 
    for i in range(1, index.size): 
        if index[i] == index[i_start]: 
            continue 

        # here: i is the first _next_ index 
        inds = slice(i_start, i)  # i_start:i slice 
        res[inds] = data[inds] - np.median(data[inds]) 

        i_start = i 

    # also fix last label 
    res[i_start:] = data[i_start:] - np.median(data[i_start:])

    return res

下面是一些使用 IPython 的 %timeit 魔术的时间：

>>> %timeit diffmedian_jit.py_func(data, index)  # non-jitted function
... %timeit diffmedian_jit(data, index)  # jitted function
...
4.27 ms ± 109 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
65.2 µs ± 1.01 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

使用问题中更新的示例数据，这些数字（即 python 函数的运行时间与 JIT 加速函数的运行时间）是

>>> %timeit diffmedian_jit.py_func(data, groups) 
... %timeit diffmedian_jit(data, groups)
2.45 s ± 34.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
93.6 ms ± 518 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

这相当于使用加速代码在较小的情况下加速了 65 倍，在较大的情况下加速了 26 倍（当然，与缓慢的循环代码相比）。另一个好处是（与使用原生 numpy 的典型向量化不同）我们不需要额外的内存来达到这个速度，这完全是关于最终运行的优化和编译的低级代码。

上述函数假定numpy int 数组默认为int64，在Windows 上实际上并非如此。因此，另一种方法是从对numba.njit 的调用中删除签名，从而触发正确的即时编译。但这意味着函数将在第一次执行期间编译，这可能会干扰计时结果（我们可以手动执行一次函数，使用代表性数据类型，或者只是接受第一次计时执行会慢得多，这应该被忽略）。这正是我试图通过指定一个触发提前编译的签名来防止的。

无论如何，在正确的 JIT 情况下，我们需要的装饰器只是

@numba.njit
def diffmedian_jit(...):

请注意，我为 jit 编译的函数显示的上述时间仅适用于编译函数后。这要么发生在定义时（使用急切编译，当显式签名传递给numba.njit），或者发生在第一个函数调用期间（使用惰性编译，当没有签名传递给numba.njit）。如果函数只执行一次，那么编译时间也应该考虑这个方法的速度。如果编译 + 执行的总时间小于未编译的运行时，通常只值得编译函数（在上述情况下实际上是这样，本机 python 函数非常慢）。这主要发生在您多次调用编译函数时。

正如max9111 在评论中指出的那样，numba 的一个重要特性是cache keyword 到jit。将cache=True 传递给numba.jit 会将编译后的函数存储到磁盘，这样在给定python 模块的下一次执行期间，函数将从那里加载而不是重新编译，从长远来看，这再次可以节省您的运行时间。

【讨论】：

@Divakar 实际上，它假设索引是连续的和排序的，这似乎是 OP 数据中的一个假设，并且也自动包含在 roganjosh 的 index 数据中。我会留个便条，谢谢:)
好的，连续性不会自动包括在内……但我很确定它必须是连续的。嗯……
@AndrasDeak 假设标签是连续的并且已排序确实很好（如果不是很容易修复它们）
@AndrasDeak 查看对测试数据问题的编辑（以便跨问题的性能比较是一致的）
您可以提及关键字cache=True 以避免每次重新启动解释器时重新编译。

【解决方案2】：

一种方法是在这里使用Pandas，纯粹是为了使用groupby。我稍微放大了输入大小，以便更好地理解时序（因为创建 DF 存在开销）。

import numpy as np
import pandas as pd

data =  [1.00, 1.05, 1.30, 1.20, 1.06, 1.54, 1.33, 1.87, 1.67]
index = [0,    0,    1,    1,    1,    1,    2,    3,    3]

data = data * 500
index = np.sort(np.random.randint(0, 30, 4500))

def df_approach(data, index):
    df = pd.DataFrame({'data': data, 'label': index})
    df['median'] = df.groupby('label')['data'].transform('median')
    df['result'] = df['data'] - df['median']

给出以下timeit：

%timeit df_approach(data, index)
5.38 ms ± 50.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

对于相同的样本量，我得到 dict approach of Aryerez 为：

%timeit dict_approach(data, index)
8.12 ms ± 3.47 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

但是，如果我们将输入再增加 10 倍，则时间变为：

%timeit df_approach(data, index)
7.72 ms ± 85 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%timeit dict_approach(data, index)
30.2 ms ± 10.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

但是，以牺牲一些可靠性为代价，Divakar 使用纯 numpy 的答案来自：

%timeit bin_median_subtract(data, index)
573 µs ± 7.48 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

鉴于新数据集（确实应该在开始时设置）：

%timeit df_approach(data, groups)
472 ms ± 2.52 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit bin_median_subtract(data, groups) #https://stackoverflow.com/a/58788623/4799172
3.02 s ± 31.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

%timeit dict_approach(data, groups) #https://stackoverflow.com/a/58788199/4799172
<I gave up after 1 minute>

# jitted (using @numba.njit('f8[:](f8[:], i4[:]') on Windows) from  https://stackoverflow.com/a/58788635/4799172
%timeit diffmedian_jit(data, groups)
132 ms ± 3.12 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

【讨论】：

感谢您的回答！为了与其他答案保持一致，您能否根据我的问题编辑中提供的示例数据测试您的解决方案？
@Jean-Paul 时间已经一致了，不是吗？他们使用了我的初始基准数据，在他们没有使用的情况下，我为他们提供了相同基准的时间
我忽略了您还添加了对 Divakar 答案的引用，因此您的答案确实已经很好地比较了不同的方法，谢谢！
@Jean-Paul 我在底部添加了最新的时间，因为它实际上改变了很多事情
很抱歉发布问题时没有添加测试集，非常感谢您现在仍然添加测试结果！谢谢！！！

【解决方案3】：

也许你已经这样做了，但如果没有，看看这是否足够快：

median_dict = {i: np.median(data[index == i]) for i in np.unique(index)}
def myFunc(my_dict, a): 
    return my_dict[a]
vect_func = np.vectorize(myFunc)
median_diff = data - vect_func(median_dict, index)
median_diff

输出：

array([-0.025,  0.025,  0.05 , -0.05 , -0.19 ,  0.29 ,  0.   ,  0.1  ,
   -0.1  ])

【讨论】：

冒着明显的风险，np.vectorize 是一个非常薄的循环包装器，所以我不认为这种方法会特别快。跨度>
@AndrasDeak 我不反对 :) 我会继续关注，如果有人会发布更好的解决方案，我会删除它。
我认为即使出现更快的方法你也不必删除它:)
@roganjosh 这可能是因为您没有像问题中那样将data 和index 定义为np.arrays。
@Jean-Paul roganjosh 对我的方法和他的方法进行了时间比较，这里的其他人比较了他们的方法。这取决于计算机硬件，因此每个人都检查自己的方法没有意义，但似乎我在这里提出了最慢的解决方案。

【解决方案4】：

这是一种基于 NumPy 的方法，用于获取正分箱/索引值的分箱中位数 -

def bin_median(a, i):
    sidx = np.lexsort((a,i))

    a = a[sidx]
    i = i[sidx]

    c = np.bincount(i)
    c = c[c!=0]

    s1 = c//2

    e = c.cumsum()
    s1[1:] += e[:-1]

    firstval = a[s1-1]
    secondval = a[s1]
    out = np.where(c%2,secondval,(firstval+secondval)/2.0)
    return out

解决我们的减法的具体情况 -

def bin_median_subtract(a, i):
    sidx = np.lexsort((a,i))

    c = np.bincount(i)

    valid_mask = c!=0
    c = c[valid_mask]    

    e = c.cumsum()
    s1 = c//2
    s1[1:] += e[:-1]
    ssidx = sidx.argsort()
    starts = c%2+s1-1
    ends = s1

    starts_orgindx = sidx[np.searchsorted(sidx,starts,sorter=ssidx)]
    ends_orgindx  = sidx[np.searchsorted(sidx,ends,sorter=ssidx)]
    val = (a[starts_orgindx] + a[ends_orgindx])/2.
    out = a-np.repeat(val,c)
    return out

【讨论】：

非常好的答案！您是否有任何迹象表明速度有所提高，例如df.groupby('index').transform('median')?
@Jean-Paul 你能在你的数百万个实际数据集上进行测试吗？
@Jean-Paul 编辑了我的解决方案以获得更简单的解决方案。如果您愿意，请务必使用这个进行测试。