【问题标题】:Fill 1D numpy array from arrays with indices从具有索引的数组中填充一维 numpy 数组
【发布时间】:2017-12-16 20:21:09
【问题描述】:

背景

我有一个用零初始化的一维 NumPy 数组。

import numpy as np
section = np.zeros(1000)

然后我有一个 Pandas DataFrame,其中我在两列中有索引:

d= {'start': {0: 7200, 1: 7500, 2: 7560, 3: 8100, 4: 11400},
    'end': {0: 10800, 1: 8100, 2: 8100, 3: 8150, 4: 12000}}

df = pd.DataFrame(data=d, columns=['start', 'end'])

对于每对索引,我想将 numpy 数组中相应索引的值设置为 True。

我目前的解决方案

我可以通过对 DataFrame 应用一个函数来做到这一点:

def fill_array(row):
    section[row.start:row.end] = True

df.apply(fill_array, axis=1)

我想对这个操作进行矢量化

这按我的预期工作,但为了好玩,我想对操作进行矢量化。我对此不是很精通,而且我在网上搜索并没有让我走上正轨。

如果可能的话,我非常感谢有关如何将其转换为向量运算的任何建议。

【问题讨论】:

  • 在您的实际用例中会有多少个开始、结束对?
  • @Divakar 最坏情况 10 000 对,以及 1-3 百万个索引的 NumPy 数组。

标签: python arrays pandas numpy vectorization


【解决方案1】:

矢量化

您已经通过使用切片分配完成了最重要的向量化,但是您无法使用切片完全向量化它,因为 python 不支持“多切片”。

如果你真的很想使用矢量化,你可以用 “真”索引,像这样

indices = np.r_[tuple(slice(row.start, row.end) for row in df.itertuples())]
section[indices] = True

但这很可能会更慢,因为它会创建一个带有索引的新临时数组。

删除重复的工作

话虽如此,您可以通过减少重复工作来加快速度。具体来说,您可以使用union of the ranges,为您提供一组不相交的集合。

在您的情况下,第一个间隔与最后一个间隔重叠,因此您的数据框相当于

d= {'start': {0: 7200, 1: 11400},
    'end': {0: 10800, 1: 12000}}

这可将工作量减少多达 60%!但首先我们需要找到这些区间。按照上面引用的答案,我们可以这样做:

slices = [(row.start, row.end) for row in df.itertuples()]
slices_union = []
for start, end in sorted(slices):
    if slices_union and slices_union[-1][1] >= start - 1:
        slices_union[-1][1] = max(slices_union[-1][1], end)
    else:
        slices_union.append([start, end])

然后你可以像这样使用这些(希望是更小的切片)

for start, end in slices_union:
    section[start:end] = True

【讨论】:

  • 事实证明,我们可以矢量化,只需要改变我们做的方式:)
  • 他可以,但我怀疑这是否值得。最后我给出了一个解决方案,使用np.r_,我想这是最简单的解决方案。
  • 很抱歉试图纠正术语,但列表/数据框理解不是矢量化解决方案,特别是在放入大标题时:)
  • 感谢您的建议,@JonasAdler 我必须对您的代码进行一些小改动才能使其正常工作。原件抛出了AttributeError: 'str' object has no attribute 'start' 错误。通过使用df.itertuples() 而不是df,它很容易解决。正如您所怀疑的,矢量化版本比迭代版本慢一点,747 µs 与 649 µs 迭代。作为比较,我的原始函数时钟为 413 µs。
  • 根据您的评论更新。你尝试过其他技巧吗?
【解决方案2】:

实现的诀窍是我们将1s 放在每个起点,-1s 放在零初始化的 int 数组的每个终点。接下来是真正的技巧,因为我们将对其进行累积求和,从而为 bin(开始-停止对)边界所覆盖的位置提供非零数字。因此,最后一步是寻找非零值作为布尔数组的最终输出。因此,我们将有两个矢量化解决方案,它们的实现如下所示 -

def filled_array(start, end, length):
    out = np.zeros((length), dtype=int)
    np.add.at(out,start,1)
    np.add.at(out,end,-1)
    return out.cumsum()>0

def filled_array_v2(start, end, length): #Using @Daniel's suggestion
    out =np.bincount(start, minlength=length) - np.bincount(end, minlength=length)
    return out.cumsum().astype(bool)

示例运行 -

In [2]: start
Out[2]: array([ 4,  7,  5, 15])

In [3]: end
Out[3]: array([12, 12,  7, 17])

In [4]: out = filled_array(start, end, length=20)

In [7]: pd.DataFrame(out) # print as dataframe for easy verification
Out[7]: 
        0
0   False
1   False
2   False
3   False
4    True
5    True
6    True
7    True
8    True
9    True
10   True
11   True
12  False
13  False
14  False
15   True
16   True
17  False
18  False
19  False

【讨论】:

  • 小问题:maxlen 应该是minlen,因为如果您的zeros 数组太短,add.at 将失败。此外,为了提高性能,您可以使用 out = np.bincount(start, minlength=minlen) - np.bincount(end, minlength=minlen)return out.cumsum().astype(bool),因为整数 !=0 将在没有比较步骤的情况下解析为 TRUE
  • @DanielF 好点,非常感谢!已编辑。 maxlen 这个名字不正确。将其留给 OP 以确保作为输入 arg 提及的长度涵盖所有索引。
  • 谢谢@Divakar!这是一个很好的答案。我喜欢你建议的算法。聪明的!我在 245 µs 时测量了它,根据 @DanielF 的建议,它下降到每个循环只有 150 µs。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2019-01-09
  • 2020-03-25
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-03-26
相关资源
最近更新 更多