【发布时间】:2013-11-14 21:13:22
【问题描述】:
在 numpy (1.8) 中,我想将此计算从 Python 循环中移出,以实现更好的性能:
(width, height) = base.shape
(toolw, toolh) = tool.shape
for i in range(0, width-toolw):
for j in range(0, height-toolh):
zdiff[i,j] = (tool - base[i:i+toolw, j:j+toolh]).min()
base 是一个 ~2000x2000 数组,tool 是一个 25x25 数组。 (背景:base 和 tool 是高度图,我正在尝试找出最接近的工具在整个 base 上移动的方法。)
我正在尝试使用跨步技巧,从以下开始:
base_view = np.lib.stride_tricks.as_strided(base, shape=(2000, 2000, 25, 25),
strides=(base.strides * 2))
这将使base_view[10,20] 成为一个 25x25 的值数组,从 (10, 20) 的左上角开始。
但是,由于“数组太大”而失败。从值测试来看,当数组的潜在大小(例如 2000*2000*25*25*8)超过 2^32-ish 并且它触发了将所有维度相乘的溢出检查时,它似乎会报告此问题。 (我安装的是 32 位 Python)。
我觉得我错过了一些东西——为什么当步幅值明显有效时,它不能让我创建这个“步幅视图”?有没有办法强制这样做?
更一般地说,有没有办法优化我上面的循环?
更新:确切错误:
ValueError Traceback (most recent call last)
<ipython-input-14-313b3d6c74fa> in <module>()
----> 1 newa = np.lib.stride_tricks.as_strided(base, shape=(1000, 1000, 25, 25), strides=(base.strides * 2))
C:\Python27\lib\site-packages\numpy\lib\stride_tricks.pyc in as_strided(x, shape, strides)
28 if strides is not None:
29 interface['strides'] = tuple(strides)
---> 30 array = np.asarray(DummyArray(interface, base=x))
31 # Make sure dtype is correct in case of custom dtype
32 array.dtype = x.dtype
C:\Python27\lib\site-packages\numpy\core\numeric.pyc in asarray(a, dtype, order)
458
459 """
--> 460 return array(a, dtype, copy=False, order=order)
461
462 def asanyarray(a, dtype=None, order=None):
ValueError: array is too big.
【问题讨论】:
-
确切的错误是什么?顺便说一句,这是
scipy.ndimage.generic_filter的一个很好的候选者,尽管这可能比你的大步方法慢。 -
我查看了 scipy.ndimage 通用过滤器。过滤器是一个 Python 函数,它不会将循环移动到 numpy 中,这是(我怀疑)真正加速的地方。
-
@alko:正是那个帖子让我走上了这条路。但是,如果维度相乘太大,这种方法就会失效。
-
您看到的错误正在引发here。它正在计算数组的总大小,它会溢出
np.intp,在 32 位系统上是 int32。看起来你的阵列的虚拟大小不应该是一个问题。看来您只需要将当前检查替换为基于步幅乘积与其相应尺寸之和的检查。如果你切换到 64 位版本的 Numpy,你所有的问题都会消失...... -
@JoeKington 不,
as_strided不会检查这一点,如果您做错数学并开始超出实际数组边界进行写入或读取,您可能会搞砸很多事情。
标签: python arrays numpy stride