你的a:
In [2]: a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7])])
...:
a 是 (2,4) 数值数组;我们本来可以写a = np.array([[0,1,2,3],[4,5,6,7]])。创建一个 (2,) 数组需要不同的构造。
正如其他人所写,制作数据框很简单:
In [3]: pd.DataFrame(a) # dtypes int64
Out[3]:
0 1 2 3
0 0 1 2 3
1 4 5 6 7
但是用它制作一个系列会引发错误:
In [4]: pd.Series(a)
---------------------------------------------------------------------------
...
Exception: Data must be 1-dimensional
如果显示此错误,您的问题会更清楚,以及为什么您尝试使用列表输入:
In [5]: pd.Series(a.tolist())
Out[5]:
0 [0, 1, 2, 3]
1 [4, 5, 6, 7]
dtype: object
In [6]: pd.Series(list(a))
Out[6]:
0 [0, 1, 2, 3]
1 [4, 5, 6, 7]
dtype: object
表面上它们是相同的,但是当我们查看 Series 的实际元素时,我们会看到一个包含列表,另一个包含数组。这是因为 tolist 和 list() 从数组中创建了不同的列表。
In [8]: Out[5][0]
Out[8]: [0, 1, 2, 3]
In [9]: Out[6][0]
Out[9]: array([0, 1, 2, 3])
我的经验是a.tolist() 相当快。 list(a) 等价于[i for i in a];实际上,它迭代a 的第一个维度,每次返回(在这种情况下)一个一维数组(行)。
让我们更改a,使其成为一维对象 dtype 数组:
In [14]: a = np.array([np.array([0,1,2,3]), np.array([4,5,6,7]), np.array([1]), None])
In [15]: a
Out[15]:
array([array([0, 1, 2, 3]), array([4, 5, 6, 7]), array([1]), None],
dtype=object)
现在我们可以用它制作一个系列:
In [16]: pd.Series(a)
Out[16]:
0 [0, 1, 2, 3]
1 [4, 5, 6, 7]
2 [1]
3 None
dtype: object
In [17]: Out[16][0]
Out[17]: array([0, 1, 2, 3])
事实上,我们可以从a 的切片中创建一个系列,该切片仅包含原始的 2 行:
In [18]: pd.Series(a[:2])
Out[18]:
0 [0, 1, 2, 3]
1 [4, 5, 6, 7]
dtype: object
构建一维对象 dtype 数组的技巧已在其他 SO 问题中进行了深入讨论。
请注意,这样的系列不像多列 DataFrame。我看到有人尝试编写 csv 文件,其中像这样的元素被保存为带引号的字符串。
让我们比较一些施工时间:
制作 2 种类型的更大数组:
In [25]: a0 = np.ones([1000,4],int)
In [26]: a1 = np.empty(1000, object)
In [27]: a1[:] = [np.ones(4,int) for _ in range(1000)]
# a1[:] = list(a0) # faster
首先制作一个DataFrame:
In [28]: timeit pd.DataFrame(a0)
136 µs ± 919 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
这与Out[3]的时间相同;显然只是使用 2d 数组(任何大小)作为 values 制作 DataFrame 的开销。
像你一样制作一个系列:
In [29]: timeit pd.Series(list(a0))
434 µs ± 12.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
In [30]: timeit pd.Series(a0.tolist())
315 µs ± 5.64 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
这两个都比小的a长,反映了创作的迭代性质。
并使用一维对象数组:
In [31]: timeit pd.Series(a1)
103 µs ± 1.66 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
这与小型一维数组相同。与In[28] 一样,我认为创建Series 对象,然后为其分配一个未更改的值数组只是开销。
现在构造a1 数组的速度较慢。
像a1 这样的对象数组在很多方面就像一个列表——它包含指向内存中其他地方的对象的指针。如果元素类型不同(例如包含字符串或无),它可能很有用,但在计算上它不等同于二维数组。
总而言之,如果源数组确实是一维对象 dtype 数组,您可以从中快速创建一个Series。如果它真的是一个二维数组,您需要先以某种方式将其转换为列表或一维对象数组。