【问题标题】:Numba - How to fill 2D array in parallelNumba - 如何并行填充二维数组
【发布时间】:2019-03-28 13:10:04
【问题描述】:

我有一个在 float64(x,y) 上对二维矩阵进行操作的函数。基本概念:对于每个行组合(行数选择 2),计算减法后正值的数量(行 1 - 行 2)。在 int64(y,y) 的 2Dmatrix 中,如果值高于某个阈值,则将此值存储在索引 [row1,row2] 中,如果低于某个阈值,则存储在索引 [row2,row1] 中。

我已经实现了它并用@njit(parallel=False) 对其进行了修饰,效果很好@njit(parallel=True) 似乎没有加速。为了加快整个过程,我查看了@guvectorize,它也很有效。但是,在这种情况下,我也无法弄清楚如何将 @guvectorize 与 parallel true 一起使用。

我查看了numba guvectorize target='parallel' slower than target='cpu',其中的解决方案是改用@vecorize,但我无法将解决方案转移到我的问题上,因此我现在正在寻求帮助:)

基本的jitted和guvectorized实现

import numpy as np
from numba import jit, guvectorize, prange
import timeit

@jit(parallel=False)
def check_pairs_sg(raw_data):
    # 2D array to be filled
    result = np.full((len(raw_data), len(raw_data)), -1)

    # Iterate over all possible gene combinations
    for r1 in range(0, len(raw_data)):
        for r2 in range(r1+1, len(raw_data)):
            diff = np.subtract(raw_data[:, r1], raw_data[:, r2])

            num_pos = len(np.where(diff > 0)[0])

            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos

    return result

@jit(parallel=True)
def check_pairs_multi(raw_data):
    # 2D array to be filled
    result = np.full((len(raw_data), len(raw_data)), -1)

    # Iterate over all possible gene combinations
    for r1 in range(0, len(raw_data)):
        for r2 in prange(r1+1, len(raw_data)):
            diff = np.subtract(raw_data[:, r1], raw_data[:, r2])

            num_pos = len(np.where(diff > 0)[0])

            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos

    return result

@guvectorize(["void(float64[:,:], int64[:,:])"],
             "(n,m)->(m,m)", target='cpu')
def check_pairs_guvec_sg(raw_data, result):
    for r1 in range(0, len(result)):
        for r2 in range(r1+1, len(result)):
            diff = np.subtract(raw_data[:, r1], raw_data[:, r2])

            num_pos = len(np.where(diff > 0)[0])

            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos

@guvectorize(["void(float64[:,:], int64[:,:])"],
             "(n,m)->(m,m)", target='parallel')
def check_pairs_guvec_multi(raw_data, result):
    for r1 in range(0, len(result)):
        for r2 in range(r1+1, len(result)):
            diff = np.subtract(raw_data[:, r1], raw_data[:, r2])

            num_pos = len(np.where(diff > 0)[0])

            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos

if __name__=="__main__":
     np.random.seed(404)
     a = np.random.random((512,512)).astype(np.float64)
     res = np.full((len(a), len(a)), -1)

并用

测量
%timeit check_pairs_sg(a)
%timeit check_pairs_multi(a)
%timeit check_pairs_guvec_sg(a, res)
%timeit check_pairs_guvec_multi(a, res)

导致:

614 ms ± 2.54 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
507 ms ± 6.87 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
622 ms ± 3.88 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
671 ms ± 4.35 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

我想知道如何将其实现为@vectorized 或适当的并行@guvectorize 以真正并行填充生成的二维数组。

我想这是我尝试将其进一步应用到 gpu 之前的第一步。

非常感谢任何帮助。

【问题讨论】:

  • “我想这是我尝试将其进一步应用于 gpu 之前的第一步。”。你确定你不能在转向numba之前先摆脱嵌套的for循环吗?
  • 我不清楚我应该如何运行它来尝试这样做,因为你有两个 if __name__ == '__main__' 警卫
  • 好吧,我可以使用itertools 依次生成一个组合元组,只有一个循环,但这有什么帮助? ps:我删除了第二个主要
  • 好吧,看起来你也可以使用np.roll() 来偏移 1 而不是内部循环,但我不知道,因为我不知道函数在做什么。
  • 事实上,我很确定其中大部分都可以被矢量化,删除一些for 循环和if 检查。在确保 numpy 方法合适之前跳到 numba 然后再到 GPU 是忽略了问题。

标签: python vectorization numba


【解决方案1】:

在编写 Numba 代码时考虑其他编译语言

例如考虑一个或多或少完全等效的行实现

diff = np.subtract(raw_data[:, r1], raw_data[:, r2])
num_pos = len(np.where(diff > 0)[0])

在 C++ 中。

伪代码

  • 分配一个数组差异,遍历 raw_data[i*size_dim_1+r1](循环索引为 i)
  • 分配一个布尔数组,遍历整个数组 diff 并检查 diff[i]>0
  • 遍历布尔数组,获取 b_arr==True 的索引,并通过 vector::push_back() 将它们保存到向量中。
  • 检查向量的大小

您的代码中的主要问题是:

  • 为简单操作创建临时数组
  • 非连续内存访问

优化代码

删除临时数组和简化

@nb.njit(parallel=False)
def check_pairs_simp(raw_data):
    # 2D array to be filled
    result = np.full((raw_data.shape[0],raw_data.shape[1]), -1)
    
    # Iterate over all possible gene combinations
    for r1 in range(0, raw_data.shape[1]):
        for r2 in range(r1+1, raw_data.shape[1]):
            num_pos=0
            for i in range(raw_data.shape[0]):
                if (raw_data[i,r1]>raw_data[i,r2]):
                    num_pos+=1
            
            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos
    
    return result

删除临时数组和简化+连续内存访问

@nb.njit(parallel=False)
def check_pairs_simp_rev(raw_data_in):
    #Create a transposed array not just a view 
    raw_data=np.ascontiguousarray(raw_data_in.T)
    
    # 2D array to be filled
    result = np.full((raw_data.shape[0],raw_data.shape[1]), -1)
    
    # Iterate over all possible gene combinations
    for r1 in range(0, raw_data.shape[0]):
        for r2 in range(r1+1, raw_data.shape[0]):
            num_pos=0
            for i in range(raw_data.shape[1]):
                if (raw_data[r1,i]>raw_data[r2,i]):
                    num_pos+=1
            
            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos
    
    return result

删除临时数组和简化 + 连续内存访问 + 并行化

@nb.njit(parallel=True,fastmath=True)
def check_pairs_simp_rev_p(raw_data_in):
    #Create a transposed array not just a view 
    raw_data=np.ascontiguousarray(raw_data_in.T)
    
    # 2D array to be filled
    result = np.full((raw_data.shape[0],raw_data.shape[1]), -1)
    
    # Iterate over all possible gene combinations
    for r1 in nb.prange(0, raw_data.shape[0]):
        for r2 in range(r1+1, raw_data.shape[0]):
            num_pos=0
            for i in range(raw_data.shape[1]):
                if (raw_data[r1,i]>raw_data[r2,i]):
                    num_pos+=1
            
            # Arbitrary check to illustrate
            if num_pos >= 5: 
               result[r1,r2] = num_pos
            else:
               result[r2,r1] = num_pos
    
    return result

时间

%timeit check_pairs_sg(a)
488 ms ± 8.68 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit check_pairs_simp(a)
186 ms ± 3.83 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit check_pairs_simp_rev(a)
12.1 ms ± 226 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit check_pairs_simp_rev_p(a)
5.43 ms ± 49.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

【讨论】:

  • 你也可以使用if (raw_data[r1,i]-raw_data[r2,i]) > 0而不是if raw_data[r1,i] > raw_data[r2,i]
  • @MSeifert 感谢您的评论。这又提供了 10% 的加速
  • 嘿 max9111 非常感谢您的见解。您的回答不仅有助于显着改进我的代码,还让我对 numpy 有了很多了解。干杯
猜你喜欢
  • 1970-01-01
  • 2018-01-27
  • 1970-01-01
  • 2017-03-22
  • 1970-01-01
  • 1970-01-01
  • 2016-05-27
  • 2020-08-02
  • 2016-07-13
相关资源
最近更新 更多