【发布时间】:2010-11-14 16:12:21
【问题描述】:
情景
我有几个数字范围。这些范围不重叠——因为它们不重叠,所以逻辑上的结果是任何时候都不能有一个数字属于多个范围。每个范围是连续的(单个范围内没有空洞,因此范围 8 到 16 将真正包含 8 到 16 之间的所有数字),但两个范围之间可以有空洞(例如范围从 64 开始到 128,下一个范围从 256 开始到 384),因此某些数字可能根本不属于任何范围(在此示例中,数字 129 到 255 不属于任何范围)。
问题
我得到一个数字,需要知道该数字属于哪个范围...如果它属于任何范围。否则我需要知道它不属于任何范围。速度当然很重要;我不能简单地检查 O(n) 的所有范围,因为可能有数千个范围。
简单的解决方案
一个简单的解决方案是将所有数字保存在一个排序数组中并对其运行二进制搜索。那至少会给我 O(log n)。当然,二进制搜索必须进行一些修改,因为它必须始终检查范围的最小和最大数字。如果要查找的数字介于两者之间,则我们找到了正确的范围,否则我们必须搜索低于或高于当前值的范围。如果最后只剩下一个范围并且数字不在该范围内,则该数字根本不在范围内,我们可以返回“未找到”结果。
范围也可以以某种树形结构链接在一起。这基本上就像一个带有二进制搜索的排序列表。优点是修改树比排序数组(添加/删除范围)更快,但不像我们浪费一些额外的时间来保持树的平衡,随着时间的推移,树可能会变得非常不平衡,这将导致搜索比对排序数组的二分搜索慢得多。
人们可以争论哪种解决方案更好或更差,因为实际上搜索和修改操作的数量几乎是平衡的(每秒执行的搜索和添加/删除操作数量相同)。
问题
对于这类问题,是否有比排序列表或树更好的数据结构?也许在最好的情况下甚至比 O(log n) 更好,在最坏的情况下比 O(log n) 更好?
以下可能有助于此处的一些附加信息:所有范围始终以 2 的幂的倍数开始和结束。它们总是以 2 的相同幂开始和结束(例如,它们都以 4 的倍数或 8 的倍数或 16 的倍数等开始/结束)。两个的幂在运行期间不能改变。在添加第一个范围之前,必须设置 2 的幂,并且所有添加的范围必须以该值的倍数开始/结束,直到应用程序终止。我认为这可以用于优化,好像它们都以例如的倍数开始。 8、我可以忽略所有比较操作的前3位,如果有的话,其他位会告诉我范围。
我阅读了有关节和范围树的信息。这些是问题的最佳解决方案吗?有没有可能更好的解决方案?这个问题听起来类似于 malloc 实现必须做的事情(例如,每个释放的内存块都属于一个可用内存范围,而 malloc 实现必须找出哪一个),那么这些通常如何解决这个问题?
【问题讨论】:
-
最快的最坏情况是 O(log n)。否则,您可以在 O(n) 内将比较排序问题简化为该问题,并在小于 O(n log n) 的时间内解决排序问题。
-
IMO,除非你为 min(start)/ 之间的每个数字 / x (其中 start 和 end 是 x 的倍数)保留一个布尔值数组,否则你不能做得比 O(log n) 更好x 和 max(end)/x.
-
@Mecki:如果您只有“数千”个范围(甚至数百万个),那么您根本不必担心 O(log n) 平均情况;它会很快。 (即使 O(n) 也适用于“千”。)您是否真的尝试过标准的平衡二叉搜索树数据结构,但发现它太慢了,无法满足您的需求?
-
@ShreevatsaR:真的没有太慢或不够快。这个应用程序所做的就是不断添加新的范围并将范围交给系统中的其他组件。当他们完成一个范围时,他们会交回该范围中的任意数量,我必须找到有问题的范围并杀死(或使其无效)。所以这个应用程序是链中最弱的元素,因此将决定链中所有其他元素的速度。速度越快,对所有其他组件都越好。
-
有一个总是“足够快”。