【发布时间】:2013-03-29 07:33:46
【问题描述】:
我是矢量化和生成器的新手。到目前为止,我已经创建了以下函数:
import numpy as np
def ismember(a,b):
for i in a:
if len(np.where(b==i)[0]) == 0:
lv_var = 0
else:
lv_var = np.int(np.where(b==i)[0])
yield lv_var
vect = np.vectorize(ismember)
A = np.array(xrange(700000))
B = np.array(xrange(700000))
lv_result = vect(A,B)
当我尝试将 lv_result 转换为列表或循环遍历生成的 numpy 数组时,我会得到一个生成器对象列表。我需要以某种方式获得实际结果。如何打印此功能的实际结果?生成器上的.next() 似乎不起作用。
谁能告诉我我做错了什么或者我如何重新配置代码以实现最终目标?
---------------------------------------------- ----
好的,我现在了解矢量化部分(感谢Viet Nguyen 的示例)。
我还能够打印生成器对象结果。代码已修改。请看下文。
对于生成器部分:
我想做的是模仿一个名为ismember 的 MATLAB 函数(格式为:[Lia,Locb] = ismember(A,B)。我只是想只获取 Locb 部分.
来自 Matlab:Locb,对于 A 中属于 B 的每个值,包含 B 中的最低索引。输出数组 Locb 包含 0,只要 A 不是 B 的成员
主要问题之一是我需要能够尽可能高效地执行此操作。为了测试,我有两个 700k 元素的数组。创建一个生成器并检查生成器的值似乎并没有获得更好的性能。
为了打印生成器,我在下面创建了函数 f()。
import numpy as np
def ismember(a,b):
for i in a:
index = np.where(b==i)[0]
if len(index) == 0:
yield 0
else:
yield index
def f(A, gen_obj):
my_array = np.arange(len(A))
for i in my_array:
my_array[i] = gen_obj.next()
return my_array
A = np.arange(700000)
B = np.arange(700000)
gen_obj = ismember(A,B)
f(A, gen_obj)
print 'done'
注意:如果我们用更小的数组来尝试上面的代码: 让我们说。
A = np.array([3,4,4,3,6])
B = np.array([2,5,2,6,3])
结果将是一个数组:[4 0 0 4 3]
就像 matlabs 函数:目标是为 A 中属于 B 的每个值获取 B 中的最低索引。输出数组 Locb 包含 0,只要 A 不是 B 的成员。
Numpy 的交集函数并不能帮助我实现目标。此外,返回数组的大小需要保持与数组 A 的大小相同。
到目前为止,这个过程需要很长时间(对于 700k 元素的数组)。不幸的是,我还没有找到最好的解决方案。任何关于如何重新配置代码以实现最终目标并获得最佳性能的意见,我们将不胜感激。
优化问题解决于:
【问题讨论】:
-
你能解释一下你到底想做什么吗?例如,如果 A = [0, 1, 2] 和 B = [0, 1, 2],那么您期望 lv_result 是什么?
-
你为什么要把你的函数变成一个生成器?
vectorize的工作方式是编写一个函数,该函数接受来自输入向量的单个值(或多个单个值,每个输入向量中的一个),然后vectorize按元素将其应用于参数向量。您似乎正在尝试编写一个函数来完全使用两个输入向量,这意味着您无法对其进行向量化。 -
np.int(np.where(b==i)[0])的目的是什么?它应该引发异常,因为int()参数不能是元组。 -
已添加更多信息。
-
优化问题解决于:[python-run-generator-using-multiple-cores-for-optimization][1] [1]: stackoverflow.com/questions/15864082/…
标签: python arrays numpy generator vectorization