【发布时间】:2015-03-15 16:23:28
【问题描述】:
好的,经过一番搜索,我似乎找不到直接解决此问题的 SO 问题。我研究了蒙面数组,虽然它们看起来很酷,但我不确定它们是否是我需要的。
考虑 2 个 numpy 数组:
zone_data 是一个二维 numpy 数组,其中包含具有相同值的元素块。这是我的“区域”。
value_data 是一个具有任意值的二维 numpy 数组(zone_data 的精确形状)。
我寻找一个与 zone_data/value_data 形状相同的 numpy 数组,其中包含每个区域的平均值来代替区域编号。
示例...以 ascii 艺术形式。
zone_data(4 个不同的区域):
1, 1, 2, 2
1, 1, 2, 2
3, 3, 4, 4
3, 4, 4, 4
value_data:
1, 2, 3, 6
3, 0, 2, 5
1, 1, 1, 0
2, 4, 2, 1
我的结果,叫它result_data:
1.5, 1.5, 4.0, 4.0
1.5, 1.5, 4.0, 4.0
2.0, 2.0, 1.0, 1.0
2.0, 2.0, 1.0, 1.0
这是我的代码。只要给我一个完美的结果,它就可以正常工作。
result_data = np.zeros(zone_data.shape)
for i in np.unique(zone_data):
result_data[zone_data == i] = np.mean(value_data[zone_data == i])
我的数组很大,我的代码 sn-p 需要几秒钟。我认为我有知识差距,没有找到任何有用的东西。循环方面需要委托给库或其他东西...aarg!
我寻求帮助以使其更快!蟒蛇大神,求你的智慧!
编辑——添加基准脚本
import numpy as np
import time
zones = np.random.randint(1000, size=(2000,1000))
values = np.random.rand(2000,1000)
print 'start method 1:'
start_time = time.time()
result_data = np.zeros(zones.shape)
for i in np.unique(zones):
result_data[zones == i] = np.mean(values[zones == i])
print 'done method 1 in %.2f seconds' % (time.time() - start_time)
print
print 'start method 2:'
start_time = time.time()
#your method here!
print 'done method 2 in %.2f seconds' % (time.time() - start_time)
我的输出:
start method 1:
done method 1 in 4.34 seconds
start method 2:
done method 2 in 0.00 seconds
【问题讨论】:
标签: python arrays performance numpy masking