如何实现保持顺序并具有快速插入/删除的数据结构？答案

【问题标题】：How can I implement a data structure that preserves order and has fast insertion/removal?如何实现保持顺序并具有快速插入/删除的数据结构？
【发布时间】：2013-10-21 18:25:36
【问题描述】：

我正在寻找一种保留其元素顺序的数据结构（这可能会随着数据结构的生命周期而改变，因为客户端可能会移动元素）。

它应该允许快速搜索、在给定元素之前/之后插入、删除给定元素、查找第一个和最后一个元素以及从给定元素开始的双向迭代。

什么是好的实现？

这是我的第一次尝试：

派生自collections.abc.Iterable 和collections.abc.MutableSet 的类，包含一个链表和一个字典。字典的键是元素，值是链表中的节点。字典将处理给定元素的节点搜索。一旦找到一个元素，链表将处理之前/之后的插入、删除和迭代。字典将通过添加或删除相关的键/值对来更新。显然，使用这种方法，元素必须是可散列且唯一的（否则，我们将需要另一层间接层，其中每个元素都由自动分配的数字标识符表示，并且只有这些标识符作为键存储）。

在我看来，这在渐近复杂度方面要比list 或collections.deque 严格地好，但我可能错了。 [编辑：错误，正如@roliu 所指出的那样。与list 或deque 不同，我无法通过O(1) 中的数字索引找到元素。截至目前，它是O(N)，但我相信如果有必要，有一些方法可以使它成为O(log N)。]

【问题讨论】：

collections.OrderedDictionary 是一个使用双向链表来维护秩序的字典。但是，任意重新排列顺序并非易事。
如何用你的字典+链表快速插入？任何建立在平衡二叉搜索树上的抽象数据结构似乎都适合您（插入、删除、搜索的速度相当快，并且可以从任何节点向前和向后迭代）。虽然不确定python中有什么。
就目前而言，这个问题有一些缺点：它太宽泛（一篇文章中有多个问题），要求外部资源（明确偏离主题）并且不是一个实际的代码问题（更适合程序员.SE)。
@MartijnPieters 我认为是OrderedDict。
@MartijnPieters：是的，OrderedDict 不允许插入，除非在末尾，所以我不能使用它。 @roliu：我认为插入就像找到所需位置一样简单，在该位置向双向链表添加一个新节点，并将元素、节点作为新键、值存储在字典中。

标签： python data-structures python-3.x deque

【解决方案1】：

Raymond Hettinger's OrderedSet recipe 的略微修改版本似乎满足了我的所有要求。我只添加了对基于位置的访问和读/写的支持。

# changes vs. original recipe at http://code.activestate.com/recipes/576696/:
# added a position parameter to add
# changed how pop works, and added popleft
# added find, get_start, get_end, next_pos, prev_pos, __getitem__, __setitem__

class OrderedSetPlus(collections.MutableSet, collections.Iterable):
    '''
    >>> oset = OrderedSetPlus([3, 3, 3, 2, 1, 8, 8])
    >>> oset.add(13)
    >>> p = oset.find(2)
    >>> oset.add(15, p)
    >>> oset
    OrderedSetPlus([3, 15, 2, 1, 8, 13])
    >>> p = oset.next_pos(p)
    >>> oset[p]
    1
    >>> oset.add(7, p)
    >>> oset
    OrderedSetPlus([3, 15, 2, 7, 1, 8, 13])
    >>> oset[p] = 20
    >>> oset
    OrderedSetPlus([3, 15, 2, 7, 20, 8, 13])
    '''

    class DuplicateElement(Exception):
        pass

    def __init__(self, iterable=None):
        self.end = end = [] 
        end += [None, end, end]         # sentinel node for doubly linked list
        self.map = {}                   # key --> [key, prev, next]
        if iterable is not None:
            self |= iterable

    def __len__(self):
        return len(self.map)

    def __contains__(self, key):
        return key in self.map

    def find(self, key):
        return self.map.get(key, None)

    # inserts element before the specified position
    # if pos is None, inserts at the end
    # position can only be obtained by calling instance methods
    def add(self, key, pos = None):
        if pos is None:
            pos = self.end
        if key not in self.map:
            curr = pos[PREV]
            curr[NEXT] = pos[PREV] = self.map[key] = [key, curr, pos]

    def discard(self, key):
        if key in self.map:        
            key, prev, next = self.map.pop(key)
            prev[NEXT] = next
            next[PREV] = prev

    def __iter__(self):
        end = self.end
        curr = end[NEXT]
        while curr is not end:
            yield curr[KEY]
            curr = curr[NEXT]

    def get_end(self):
        return self.end[PREV]

    def get_start(self):
        return self.end[NEXT]

    def next_pos(self, pos):
        pos = pos[NEXT]
        return None if pos is self.end else pos

    def prev_pos(self, pos):
        pos = pos[PREV]
        return None if pos is self.end else pos

    def __getitem__(self, pos):
        return pos[KEY]

    def __setitem__(self, pos, key):
        if key in self.map:
            raise DuplicateElement
        pos[KEY] = key

    def __reversed__(self):
        end = self.end
        curr = end[PREV]
        while curr is not end:
            yield curr[KEY]
            curr = curr[PREV]

    def popleft(self):
        return self.pop(pos = self.get_start())


    def pop(self, pos=None):
        if not self:
            raise IndexError()
        if pos is None:
            pos = self.get_end()
        key = self[pos]
        #key = next(reversed(self)) if last else next(iter(self))
        self.discard(key)
        return key

    def __repr__(self):
        return '{}({})'.format(self.__class__.__name__, list(self))

    def __eq__(self, other):
        if isinstance(other, OrderedSet):
            return len(self) == len(other) and list(self) == list(other)
        return set(self) == set(other)

【讨论】：

嗯，我很困惑。据我所知，这不是订购的；我的意思是...add() 需要一个新密钥和一个 现有节点，然后您可以让用户选择添加到末尾。这真的是你想要的数据结构吗？它看起来像一个带有链接列表的地图，实际上并没有给你任何额外的东西......
“有序”是指添加新元素时由客户任意确定的顺序。它与“排序”不同（客户端指定关系并且数据结构在每次插入时自动排序）。我知道这很令人困惑，我希望我知道一个更好的术语。在我的辩护中，我可以指出 Python 的 OrderedDict。
嗯，你的代码处理排序的方式让我想起了一个基本列表。它以何种方式处理与 Java 中的 ArrayList 或 C# 中的 List 不同的排序方式？无论如何，看起来你已经得到了答案。酷！
@roliu 我认为语义是相同的，但 C# List 的时间复杂度是 O(N) 用于删除。 C# 有一个SkipList，它也具有相同的语义，但所有操作都具有O(log N) 的复杂性。所以我想要的数据结构本质上是用哈希表替换树，导致所有操作的摊销O(1)。
感谢您的确认！为了清楚起见，我不会说您的数据结构比 C#List“更好”。它们是不同的——它们甚至不支持相同的操作。例如，除非您已经拥有位于该索引处的节点，否则您不能添加到任意索引。这对于大多数用例来说真的很不自然，但可能对你的用例很有用。同样，您不能从任意索引中删除；你只支持按键删除。我提出ArrayList 和List 只是为了举例说明排序语义，而不是说它们等同于您的数据结构。

【解决方案2】：

我知道这并不完全是您问题的直接答案（因为这不是 python 实现的解决方案），但如果您的数据结构将相当大，我会考虑使用 Redis db。您可以使用redis-pi 通过 Python 与它对话。

【讨论】：

【解决方案3】：

在 Python 中使用双向链表有点不常见。但是，您自己提出的双向链表和字典的解决方案具有正确的复杂性：您要求的所有操作都是 O(1)。

我认为标准库中没有更直接的实现。树在理论上可能很好，但也有缺点，例如 O(log n) 或（准确地说）它们在标准库中普遍缺失。

【讨论】：