【问题标题】:Numpy: Sorting a multidimensional array by a multidimensional arrayNumpy:通过多维数组对多维数组进行排序
【发布时间】:2012-06-10 22:07:42
【问题描述】:

如果这是多余的或超级基本的,请原谅我。我从 R 来到 Python/Numpy,很难在脑海中翻来覆去。

我有一个 n 维数组,我想使用另一个 n 维索引值数组对其进行排序。我知道我可以将其包装在一个循环中,但似乎应该有一种非常简洁的 Numpyonic 方式来击败它以提交。这是我设置 n=2 问题的示例代码:

a1 = random.standard_normal(size=[2,5]) 
index = array([[0,1,2,4,3] , [0,1,2,3,4] ]) 

所以现在我有一个 2 x 5 的随机数数组和一个 2 x 5 的索引。我已经阅读了take() 的帮助大约 10 次,但显然我的大脑并没有摸索它。

我认为这可能会让我到达那里:

take(a1, index)

array([[ 0.29589188, -0.71279375, -0.18154864, -1.12184984,  0.25698875],
       [ 0.29589188, -0.71279375, -0.18154864,  0.25698875, -1.12184984]])

但这显然只对第一个元素重新排序(我推测是因为扁平化)。

关于我如何从我所在的位置到一个解决方案的任何提示,该解决方案将 a1 的元素 0 按索引的元素 0 排序...元素 n?

【问题讨论】:

  • 所以如果我理解正确的话,您想使用index 的每一行中的索引对a1 的每一“行”进行重新排序吗?换句话说 a1.take(index) 如果你是一维的,但对每一行都这样做?
  • 是的。因此,a1 的第一行按索引的第一行排序,a1 的第二行按索引的第二行排序。随着 a1 增长到维度 n,索引也会增长。

标签: python numpy slice


【解决方案1】:

我还想不出如何在 N 维中工作,但是这里是 2D 版本:

>>> a = np.random.standard_normal(size=(2,5))
>>> a
array([[ 0.72322499, -0.05376714, -0.28316358,  1.43025844, -0.90814293],
       [ 0.7459107 ,  0.43020728,  0.05411805, -0.32813465,  2.38829386]])
>>> i = np.array([[0,1,2,4,3],[0,1,2,3,4]]) 
>>> a[np.arange(a.shape[0])[:,np.newaxis],i]
array([[ 0.72322499, -0.05376714, -0.28316358, -0.90814293,  1.43025844],
       [ 0.7459107 ,  0.43020728,  0.05411805, -0.32813465,  2.38829386]])

这是N维版本:

>>> a[list(np.ogrid[[slice(x) for x in a.shape]][:-1])+[i]]

它是这样工作的:

好的,让我们从一个 3 维数组开始进行说明。

>>> import numpy as np
>>> a = np.arange(24).reshape((2,3,4))
>>> a
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

您可以通过指定沿每个轴的索引来访问此数组的元素,如下所示:

>>> a[0,1,2]
6

这等效于a[0][1][2],如果我们处理的是列表而不是数组,这就是您访问相同元素的方式。

Numpy 让您在对数组进行切片时变得更漂亮:

>>> a[[0,1],[1,1],[2,2]]
array([ 6, 18])
>>> a[[0,1],[1,2],[2,2]]
array([ 6, 22])

如果我们处理列表,这些示例将等效于 [a[0][1][2],a[1][1][2]][a[0][1][2],a[1][2][2]]

你甚至可以省略重复的索引,numpy 会找出你想要的。比如上面的例子可以等价写成:

>>> a[[0,1],1,2]
array([ 6, 18])
>>> a[[0,1],[1,2],2]
array([ 6, 22])

您在每个维度中切片的数组(或列表)的形状只会影响返回数组的形状。换句话说,当 numpy 拉取值时,它并不关心您是否尝试使用形状为 (2,3,4) 的数组来索引您的数组,只是它会反馈给您一个形状为 (2,3,4) 的数组。例如:

>>> a[[[0,0],[0,0]],[[0,0],[0,0]],[[0,0],[0,0]]]
array([[0, 0],
       [0, 0]])

在这种情况下,我们一遍又一遍地抓取相同的元素 a[0,0,0],但 numpy 返回一个与我们传入的形状相同的数组。

好的,解决您的问题。您想要的是使用 index 数组中的数字沿最后一个轴对数组进行索引。因此,对于您问题中的示例,您希望[[a[0,0],a[0,1],a[0,2],a[0,4],a[0,3]],a[1,0],a[1,1],...

你的索引数组是多维的,就像我之前说的那样,并没有告诉 numpy 你想从哪里提取这些索引;它只是指定输出数组的形状。因此,在您的示例中,您需要告诉 numpy 前 5 个值将从 a[0] 中提取,后 5 个值将从 a[1] 中提取。简单!

>>> a[[[0]*5,[1]*5],index]

它在 N 维上变得复杂,但让我们为上面定义的 3 维数组a 做吧。假设我们有以下索引数组:

>>> i = np.array(range(4)[::-1]*6).reshape(a.shape)
>>> i
array([[[3, 2, 1, 0],
        [3, 2, 1, 0],
        [3, 2, 1, 0]],

       [[3, 2, 1, 0],
        [3, 2, 1, 0],
        [3, 2, 1, 0]]])

因此,这些值都用于沿最后一个轴的索引。我们需要告诉 numpy 这些数字要取自第一和第二轴上的哪些索引;即我们需要告诉 numpy 第一个轴的索引是:

i1 = [[[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]],

      [[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]]]

第二个轴的索引是:

i2 = [[[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2]],

      [[0, 0, 0, 0],
       [1, 1, 1, 1],
       [2, 2, 2, 2]]]

那么我们就可以这样做了:

>>> a[i1,i2,i]
array([[[ 3,  2,  1,  0],
        [ 7,  6,  5,  4],
        [11, 10,  9,  8]],

       [[15, 14, 13, 12],
        [19, 18, 17, 16],
        [23, 22, 21, 20]]])

生成i1i2 的方便的numpy 函数称为np.mgrid。我在回答中使用了np.ogrid,这在这种情况下是等效的,因为我之前谈到了 numpy 魔法。

希望有帮助!

【讨论】:

  • 我认为你已经完成了我想做的事情。非常感谢!不要过于贪婪,但你能解释一下 n 维版本的作用吗?我一直在玩它,但我不了解这个动作。
  • 没问题。我添加了一个解释,顺便说一下,写出来的时间比找出答案的时间要长!
  • 您,先生,应该获得奖章!感谢您的精彩回答。
【解决方案2】:

今天又玩了一些之后,我发现如果我使用映射器函数和 take,我可以像这样简单地解决 2 维版本:

a1 = random.standard_normal(size=[2,5]) 
index = array([[0,1,2,4,3] , [0,1,2,3,4] ]) 
map(take, a1, index)

我需要map() take()a1 中的每个元素

当然,接受的答案解决了 n 维版本。但是回想起来,我确定我真的不需要 n 维解决方案,只需要二维版本。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2021-06-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-12-18
    • 2010-10-13
    相关资源
    最近更新 更多