【问题标题】:Number of elements of array less than each element of cutoff array in pythonpython中数组的元素数小于截止数组的每个元素
【发布时间】:2016-07-19 00:49:20
【问题描述】:

我有一个长度为m 的严格递增的“截止”值的numpy 数组,以及一个pandas 系列值(认为索引并不重要,这可以转换为一个numpy 数组)的值长度n。 我需要想出一种有效的方法来吐出一个长度m 的向量,该向量的熊猫系列中的元素数量小于“截止”数组的第 j 个元素。

我可以通过列表迭代器做到这一点:

output = array([(pan_series < cutoff_val).sum() for cutoff_val in cutoff_ar])

但我想知道是否有任何方法可以利用更多 numpy 的神奇速度来做到这一点,因为我必须在多个循环中多次执行此操作,并且它不断使我的计算机崩溃。

谢谢!

【问题讨论】:

    标签: python numpy


    【解决方案1】:

    这是你要找的吗?

    In [36]: a = np.random.random(20)
    
    In [37]: a
    Out[37]: 
    array([ 0.68574307,  0.15743428,  0.68006876,  0.63572484,  0.26279663,
            0.14346269,  0.56267286,  0.47250091,  0.91168387,  0.98915746,
            0.22174062,  0.11930722,  0.30848231,  0.1550406 ,  0.60717858,
            0.23805205,  0.57718675,  0.78075297,  0.17083826,  0.87301963])
    
    In [38]: b = np.array((0.3,0.7))
    
    In [39]: np.sum(a[:,None]<b[None,:], axis=0)
    Out[39]: array([ 8, 16])
    
    In [40]: np.sum(a[:,None]<b, axis=0) # b's new axis above is unnecessary...
    Out[40]: array([ 8, 16])
    
    In [41]: (a[:,None]<b).sum(axis=0)   # even simpler
    Out[41]: array([ 8, 16])
    

    时间总是很受欢迎(对于较长的 2E6 元素数组)

    In [47]: a = np.random.random(2000000)
    
    In [48]: %timeit (a[:,None]<b).sum(axis=0)
    10 loops, best of 3: 78.2 ms per loop
    
    In [49]: %timeit np.searchsorted(a, b, 'right',sorter=a.argsort())
    1 loop, best of 3: 448 ms per loop
    

    对于较小的数组

    In [50]: a = np.random.random(2000)
    
    In [51]: %timeit (a[:,None]<b).sum(axis=0)
    10000 loops, best of 3: 89 µs per loop
    
    In [52]: %timeit np.searchsorted(a, b, 'right',sorter=a.argsort())
    The slowest run took 4.86 times longer than the fastest. This could mean that an intermediate result is being cached.
    10000 loops, best of 3: 141 µs per loop
    

    编辑

    Divakar 说,对于 lenghty bs,情况可能会有所不同,让我们看看

    In [71]: a = np.random.random(2000)
    
    In [72]: b =np.random.random(200)
    
    In [73]: %timeit (a[:,None]<b).sum(axis=0)
    1000 loops, best of 3: 1.44 ms per loop
    
    In [74]: %timeit np.searchsorted(a, b, 'right',sorter=a.argsort())
    10000 loops, best of 3: 172 µs per loop
    

    确实很不一样!感谢您激发我的好奇心。

    也许 OP 应该测试他的用例,关于截止序列的非常长的样本?哪里有平衡?


    编辑#2

    我的时间安排出了问题,我忘记了.sum()axis=0 参数...

    我已经用更正的语句编辑了时间,当然还有更正的时间。我很抱歉。

    【讨论】:

    • 我也喜欢广播!但是,您必须尝试使用​​更大的b,而不是我认为的仅使用 2 个元素。
    • @Divakar 你是对的!我已经对我的帖子进行了修改。
    • 是的,类似于(pan_series[:,None]&lt;cutoff_ar).sum(0) 与我猜的问题中的变量名一起使用。
    • 广播也可以应用于表格数据,比如a.shape -&gt; (200, 50)(a[:,:,None]&lt;b).sum(axis=1)
    【解决方案2】:

    您可以将np.searchsorted 用于某些NumPy magic -

    # Convert to numpy array for some "magic"
    pan_series_arr = np.array(pan_series)
    
    # Let the magic begin!
    sortidx = pan_series_arr.argsort()
    out = np.searchsorted(pan_series_arr,cutoff_ar,'right',sorter=sortidx)
    

    说明

    您正在执行[(pan_series &lt; cutoff_val).sum() for cutoff_val in cutoff_ar] 即为每个 cutoff_ar 中的元素,我们正在计算小于它的 pan_series 元素的数量。现在使用np.searchsorted,我们正在寻找将cutoff_ar 放入已排序的pan_series_arr 并获取这些位置的索引,与cutoff_ar 中的当前元素在'right' 位置的比较。这些索引实质上表示当前cutoff_ar 元素下方pan_series 元素的数量,从而为我们提供了我们想要的输出。

    示例运行

     In [302]: cutoff_ar
    Out[302]: array([ 1,  3,  9, 44, 63, 90])
    
    In [303]: pan_series_arr
    Out[303]: array([ 2,  8, 69, 55, 97])
    
    In [304]: [(pan_series_arr < cutoff_val).sum() for cutoff_val in cutoff_ar]
    Out[304]: [0, 1, 2, 2, 3, 4]
    
    In [305]: sortidx = pan_series_arr.argsort()
         ...: out = np.searchsorted(pan_series_arr,cutoff_ar,'right',sorter=sortidx)
         ...: 
    
    In [306]: out
    Out[306]: array([0, 1, 2, 2, 3, 4])
    

    【讨论】:

    • 这很棒,我现在在我的代码中多次使用 searchsorted。但是,对于问题中提到的任务,我还需要对反向排序数组做类似的事情。显然,这可以使用 sorter arg 来完成,但在这种情况下使用 gboffi 的解决方案最终会更干净。不管怎样,非常感谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-08-22
    • 2021-03-14
    • 2014-06-19
    • 2022-01-21
    • 2021-12-06
    相关资源
    最近更新 更多