【问题标题】：Why does numpy's fromiter function require specifying the dtype when other array creation routines don't?为什么 numpy 的 fromiter 函数需要指定 dtype 而其他数组创建例程不需要？
【发布时间】：2016-03-06 00:08:05
【问题描述】：

为了提高内存效率，我一直在努力将我的一些代码从列表转换为生成器/迭代器。我发现很多情况下，我只是将我制作的列表转换为 np.array，代码模式为 np.array(some_list)。

值得注意的是，some_list 通常是一个迭代生成器的列表推导式。

我正在研究 np.fromiter 以查看是否可以更直接地使用生成器（而不是必须先将其转换为列表然后将其转换为 numpy 数组），但我注意到 np.fromiter 函数，与使用现有数据的任何其他数组创建例程不同，需要指定 dtype。

在我的大多数特定情况下，我都可以做到这一点（主要是处理对数似然，所以 float64 就可以了），但这让我想知道为什么这只对 fromiter 数组创建者而不是其他创建者是必需的数组创建者。

第一次尝试猜测：

内存预分配？

我的理解是，如果您知道dtype 和count，它允许将内存预分配给生成的np.array，并且如果您不指定可选的count 参数，它将“按需调整输出数组的大小”。但是，如果您不指定计数，您似乎应该能够以与普通np.array 调用相同的方式即时推断dtype。

数据类型重铸？

我可以看到这对于将数据重新转换为新的 dtypes 很有用，但这也适用于其他数组创建例程，并且似乎值得将放置作为可选但不是必需的参数。

重述问题的几种方法

那么为什么需要指定dtype 才能使用np.fromiter；或者换一种说法，如果无论如何都要根据需要调整数组的大小，那么指定 dtype 会带来什么好处？

与我的问题更直接相关的同一问题的更微妙版本：我知道np.ndarrays 的许多效率收益在您不断调整它们的大小时都会丢失，那么使用np.fromiter(generator,dtype=d) 而不是np.fromiter([gen_elem for gen_elem in generator],dtype=d) 而不是np.array([gen_elem for gen_elem in generator],dtype=d) 可以获得什么？

【问题讨论】：

此链接引用原因：sourceforge.net/p/numpy/mailman/message/13497603
@toasteez 这太棒了！但它实际上似乎并没有说明为什么需要dtype，除了编写它的蒂姆·霍赫伯格想要一个具有指定dtype 的一维数组。回复：添加一个形状参数，他们提到他们不想让代码更复杂并且array 有很多复杂性......但这实际上并不能回答为什么dtype 仍然需要fromiter 但不是any 其他数组创建例程。此外，该线程已有近十年的历史，并且从那时起 numpy 发生了很大变化——因此可能考虑过对其进行更改以实现 API 的一致性。
最好在 numpy github 上提出问题/问题，
一个警告...转换为 numpy 数组几乎肯定不会对您的物理内存有太大帮助，因为 numpy 数组需要连续的内存块，而这很难获得...

标签： python arrays numpy generator memory-efficient

【解决方案1】：

如果这段代码是十年前编写的，并且没有改变它的压力，那么旧的原因仍然适用。大多数人都乐于使用np.array。 np.fromiter 主要用于那些试图从生成值的迭代方法中挤出一些速度的人。

我的印象是np.array，主要替代方案在决定数据类型（和其他属性）之前读取/处理整个输入：

我可以通过改变一个元素来强制返回一个浮点数：

In [395]: np.array([0,1,2,3,4,5])
Out[395]: array([0, 1, 2, 3, 4, 5])
In [396]: np.array([0,1,2,3,4,5,6.])
Out[396]: array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.])

我很少使用fromiter，但我的感觉是，通过要求dtype，它可以从一开始就开始将输入转换为该类型。这最终可能会产生更快的迭代，尽管这需要时间测试。

我知道np.array 的普遍性需要一定的时间成本。通常对于小列表，使用列表推导式比将其转换为数组更快——即使数组操作很快。

一些时间测试：

In [404]: timeit np.fromiter([0,1,2,3,4,5,6.],dtype=int)
100000 loops, best of 3: 3.35 µs per loop
In [405]: timeit np.fromiter([0,1,2,3,4,5,6.],dtype=float)
100000 loops, best of 3: 3.88 µs per loop
In [406]: timeit np.array([0,1,2,3,4,5,6.])
100000 loops, best of 3: 4.51 µs per loop
In [407]: timeit np.array([0,1,2,3,4,5,6])
100000 loops, best of 3: 3.93 µs per loop

差异很小，但表明我的推理是正确的。要求dtype 有助于更快地保持fromiter。 count 在这么小的尺寸中并没有什么不同。

奇怪的是，为np.array 指定dtype 会减慢它的速度。就好像它附加了一个astype 调用：

In [416]: timeit np.array([0,1,2,3,4,5,6],dtype=float)
100000 loops, best of 3: 6.52 µs per loop
In [417]: timeit np.array([0,1,2,3,4,5,6]).astype(float)
100000 loops, best of 3: 6.21 µs per loop

当我使用range(1000)（Python3 生成器版本）时，np.array 和 np.fromiter 之间的差异更加显着

In [430]: timeit np.array(range(1000))
1000 loops, best of 3: 704 µs per loop

其实把范围变成列表更快：

In [431]: timeit np.array(list(range(1000)))
1000 loops, best of 3: 196 µs per loop

但fromiter 仍然更快：

In [432]: timeit np.fromiter(range(1000),dtype=int)
10000 loops, best of 3: 87.6 µs per loop

在整个数组上应用int到float的转换比在生成/迭代期间对每个元素应用更快

In [434]: timeit np.fromiter(range(1000),dtype=int).astype(float)
10000 loops, best of 3: 106 µs per loop
In [435]: timeit np.fromiter(range(1000),dtype=float)
1000 loops, best of 3: 189 µs per loop

请注意，astype 调整大小操作并不昂贵，只有大约 20 µs。

=============================

array_fromiter(PyObject *NPY_UNUSED(ignored), PyObject *args, PyObject *keywds) 定义在：

https://github.com/numpy/numpy/blob/eeba2cbfa4c56447e36aad6d97e323ecfbdade56/numpy/core/src/multiarray/multiarraymodule.c

它处理keywds 并调用 PyArray_FromIter(PyObject *obj, PyArray_Descr *dtype, npy_intp count) 在 https://github.com/numpy/numpy/blob/97c35365beda55c6dead8c50df785eb857f843f0/numpy/core/src/multiarray/ctors.c

这会使用定义的dtype 创建一个初始数组ret：

ret = (PyArrayObject *)PyArray_NewFromDescr(&PyArray_Type, dtype, 1,
                                            &elcount, NULL,NULL, 0, NULL);

此数组的data 属性与50% overallocation => 0, 4, 8, 14, 23, 36, 56, 86 ... 一起增长，并缩小以适应末尾。

这个数组的dtype，PyArray_DESCR(ret)，显然有一个函数，可以取value（由迭代器next提供），转换，设置在data中。

`(PyArray_DESCR(ret)->f->setitem(value, item, ret)`

换句话说，所有的dtype转换都是由定义的dtype完成的。如果代码“即时”决定如何转换value（以及所有以前分配的），代码会复杂得多。此函数中的大部分代码处理分配data 缓冲区。

我将暂缓查找 np.array。我敢肯定它要复杂得多。

【讨论】：

稍后我将使用指定的计数检查其中一些测试（因为长度是通过每次运行到数组末尾时添加分配的数组长度的 50% 来动态确定的） .我唯一的问题是，实际上从未给出要求 dtype 的旧理由……您的测试提供了一个线索，但鉴于您可以计算 dtype 表示的部分有序集（我认为？），您将能够推断出它高效（从uint8/int8 向上工作到object，在重新分配时使用astype 的C 基础）。但这会让np.fromiter 变得非常复杂……
我找到了fromiter 代码；这很简单。 dtype 转换由预定义的 dtype 对象处理。 fromiter 只是迭代，并保持data 缓冲区足够大。