【问题标题】：python printing a generator list after vectorization?python在矢量化后打印生成器列表？
【发布时间】：2013-03-29 07:33:46
【问题描述】：

我是矢量化和生成器的新手。到目前为止，我已经创建了以下函数：

import numpy as np

def ismember(a,b):
    for i in a:
        if len(np.where(b==i)[0]) == 0:
            lv_var = 0
        else:
            lv_var = np.int(np.where(b==i)[0])
        yield lv_var

vect = np.vectorize(ismember)

A = np.array(xrange(700000))
B = np.array(xrange(700000))

lv_result = vect(A,B)

当我尝试将 lv_result 转换为列表或循环遍历生成的 numpy 数组时，我会得到一个生成器对象列表。我需要以某种方式获得实际结果。如何打印此功能的实际结果？生成器上的.next() 似乎不起作用。

谁能告诉我我做错了什么或者我如何重新配置代码以实现最终目标？

---------------------------------------------- ----

好的，我现在了解矢量化部分（感谢Viet Nguyen 的示例）。
我还能够打印生成器对象结果。代码已修改。请看下文。

对于生成器部分：

我想做的是模仿一个名为ismember 的 MATLAB 函数（格式为：[Lia,Locb] = ismember(A,B)。我只是想只获取 Locb 部分.

来自 Matlab：Locb，对于 A 中属于 B 的每个值，包含 B 中的最低索引。输出数组 Locb 包含 0，只要 A 不是 B 的成员

主要问题之一是我需要能够尽可能高效地执行此操作。为了测试，我有两个 700k 元素的数组。创建一个生成器并检查生成器的值似乎并没有获得更好的性能。

为了打印生成器，我在下面创建了函数 f()。

import numpy as np

def ismember(a,b):
    for i in a:
        index = np.where(b==i)[0]
        if len(index) == 0:
            yield 0
        else:
            yield index


def f(A, gen_obj):
    my_array = np.arange(len(A))
    for i in my_array:
        my_array[i] = gen_obj.next()
    return my_array


A = np.arange(700000)
B = np.arange(700000)

gen_obj = ismember(A,B)

f(A, gen_obj)

print 'done'

注意：如果我们用更小的数组来尝试上面的代码：让我们说。

A = np.array([3,4,4,3,6])

B = np.array([2,5,2,6,3])

结果将是一个数组：[4 0 0 4 3]

就像 matlabs 函数：目标是为 A 中属于 B 的每个值获取 B 中的最低索引。输出数组 Locb 包含 0，只要 A 不是 B 的成员。

Numpy 的交集函数并不能帮助我实现目标。此外，返回数组的大小需要保持与数组 A 的大小相同。

到目前为止，这个过程需要很长时间（对于 700k 元素的数组）。不幸的是，我还没有找到最好的解决方案。任何关于如何重新配置代码以实现最终目标并获得最佳性能的意见，我们将不胜感激。

优化问题解决于：

python-run-generator-using-multiple-cores-for-optimization

【问题讨论】：

你能解释一下你到底想做什么吗？例如，如果 A = [0, 1, 2] 和 B = [0, 1, 2]，那么您期望 lv_result 是什么？
你为什么要把你的函数变成一个生成器？ vectorize 的工作方式是编写一个函数，该函数接受来自输入向量的单个值（或多个单个值，每个输入向量中的一个），然后 vectorize 按元素将其应用于参数向量。您似乎正在尝试编写一个函数来完全使用两个输入向量，这意味着您无法对其进行向量化。
np.int(np.where(b==i)[0]) 的目的是什么？它应该引发异常，因为int() 参数不能是元组。
已添加更多信息。
优化问题解决于：[python-run-generator-using-multiple-cores-for-optimization][1] [1]: stackoverflow.com/questions/15864082/…

标签： python arrays numpy generator vectorization

【解决方案1】：

我相信您误解了 numpy.vectorize 函数的输入。 “矢量化”函数在每个元素的基础上对数组进行操作 (see numpy.vectorize reference)。您的函数 ismember 似乎假定输入 a 和 b 是数组。相反，请将该函数视为您将与内置 map() 一起使用的东西。

> import numpy as np
> def mask(a, b):
>   return 1 if a == b else 0
> a = np.array([1, 2, 3, 4])
> b = np.array([1, 3, 4, 5])
> maskv = np.vectorize(mask)
> maskv(a, b)
  array([1, 0, 0, 0])

另外，如果我正确理解您的意图，NumPy 会附带一个intersection function。

【讨论】：

而且它还带有np.arange（而不是np.array(xrange(...))）。
mask() 函数不是一个有用的例子：a == b（或(a==b).astype(int)）直接给出与更复杂的函数 + 矢量化形式相同的结果。
@z5151：代码在我之前的评论中：如果 a 和 b 是 *arrays* - 就像在您的主代码中一样，它可以工作。
@EOL 问题已解决。见：stackoverflow.com/questions/15864082/…