【问题标题】:Apply a function to the 0-dimension of an ndarray将函数应用于 ndarray 的 0 维
【发布时间】:2016-11-15 01:31:39
【问题描述】:

问题

  • 我有一个ndarray,由arr 定义,它是一个n 维立方体,每个维度的长度为m

  • 我想通过沿维度n=0 切片并将每个n-1-dim 切片作为函数的输入来执行函数func

这似乎适用于map(),但我找不到合适的numpy 变体。 np.vectorise 似乎将 n-1-张量拆分为单独的标量条目。 apply_along_axisapply_over_axes 似乎都不合适。

我的问题是我需要将任意函数作为输入传递,所以我看不到einsum 的解决方案也是可行的。

问题

  • 您知道使用np.asarray(map(func, arr)) 的最佳numpy 替代方案吗?

示例

我通过以下方式将示例数组arr 定义为4-dim 立方体(或4-张量):

m, n = 3, 4 
arr = np.arange(m**n).reshape((m,)*n)

我定义了一个示例函数f

def f(x):
    """makes it obvious how the np.ndarray is being passed into the function"""
    try: # perform an op using x[0,0,0] which is expected to exist
        i = x[0,0,0]
    except:
        print '\nno element x[0,0,0] in x: \n{}'.format(x)
        return np.nan
    return x-x+i

此函数的预期结果res 将保持相同的形状,但满足以下条件:

print all([(res[i] == i*m**(n-1)).all() for i in range(m)])

这适用于默认的map() 函数,

res = np.asarray(map(f, a))
print all([(res[i] == i*m**(n-1)).all() for i in range(m)])
True

我希望np.vectorize 的工作方式与map() 相同,但它在标量条目中起作用:

res = np.vectorize(f)(a)

no element x[0,0,0] in x: 
0
...

【问题讨论】:

标签: python function numpy multidimensional-array vectorization


【解决方案1】:

鉴于 arr 是 4d,而您的 fn 适用于 3d 数组,

np.asarray(map(func, arr))

看起来非常合理。我会使用列表理解形式,但这是编程风格的问题

np.asarray([func(i) for i in arr])

for i in arr 迭代arr 的第一个维度。实际上,它将arr 视为 3d 数组的列表。然后它将结果列表重新组合成一个 4d 数组。

np.vectorize doc 可以更明确地说明采用标量的函数。但是,是的,它将值作为标量传递。请注意,np.vectorize 没有提供传递迭代轴参数的规定。当您的函数从多个数组中获取值时,它最有用,例如

 [func(a,b) for a,b in zip(arrA, arrB)]

它概括了zip,因此允许广播。但除此之外,它是一个迭代解决方案。它对您的func 的内容一无所知,因此无法加快调用速度。

np.vectorize 最终会调用np.frompyfunc,它的通用性稍差一些,但速度更快。但它也将标量传递给函数。

np.apply_along/over_ax(e/i)s 还迭代一个或多个轴。你可能会发现他们的代码很有启发性,但我同意它们不适用于这里。

映射方法的一种变体是分配结果数组和索引:

In [45]: res=np.zeros_like(arr,int)
In [46]: for i in range(arr.shape[0]):
    ...:     res[i,...] = f(arr[i,...])

如果您需要在与第一个轴不同的轴上进行迭代,这可能会更容易。

您需要自己计时,看看哪个更快。

==========================

在第一维上进行就地修改的迭代示例:

In [58]: arr.__array_interface__['data']  # data buffer address
Out[58]: (152720784, False)

In [59]: for i,a in enumerate(arr):
    ...:     print(a.__array_interface__['data'])
    ...:     a[0,0,:]=i
    ...:     
(152720784, False)   # address of the views (same buffer)
(152720892, False)
(152721000, False)

In [60]: arr
Out[60]: 
array([[[[ 0,  0,  0],
         [ 3,  4,  5],
         [ 6,  7,  8]],

        ...

       [[[ 1,  1,  1],
         [30, 31, 32],
         ...

       [[[ 2,  2,  2],
         [57, 58, 59],
         [60, 61, 62]],
       ...]]])

当我遍历一个数组时,我得到一个从公共数据缓冲区的连续点开始的视图。如果我修改视图,如上所述甚至使用a[:]=...,我会修改原始视图。我不需要写回任何东西。但不要使用a = ....,它会破坏到原始数组的链接。

【讨论】:

  • map() 和生成器表达式的问题在于为 ndarray 重新分配内存位置,这对于大型数组来说是浪费的 - 我希望有一个 numpy 函数可以使用指向当前数组位置的现有内存指针
  • arr[i,...] = f(arr[i,...]) 会将子数组放回原始数组中。是否创建临时数组、副本或视图取决于 f 正在做什么的细节。但我想知道您对在 numpy 数组中使用 memory pointers 的理解程度。
  • 感谢您的提示!我会说我比大多数人理解得更好,但在 python 专家中可能是平均水平低 - this book 让我大部分时间,特别是第 2.3 节和第 3.1.1 节
  • 我将尝试编写一个f 的示例,它会就地修改其输入x 而不是最后的赋值
  • 谢谢 - 我正在处理大小高达 48**4 甚至可能是 48**7 的格子,但后者我可能会使用 CFortran 代替,所以内存使用情况值得考虑即使这只是我代码中的注释作为提醒
猜你喜欢
  • 2014-04-30
  • 2018-03-07
  • 2016-01-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多