【问题标题】:Algorithm to find out the number of 1's in the binary representation over a range of positive numbers在正数范围内找出二进制表示中 1 的数量的算法
【发布时间】:2019-06-01 06:37:30
【问题描述】:

我刚刚遇到一个问题,我们应该计算大范围内数字的二进制表示中 1 的数量。是否有任何算法或技术可以轻松找到它? 例如, 对于输入 N = 6,其前面数字的二进制表示中 1 的数量。喜欢, 1 - 0001 - No. of 1's = 1; 2 - 0010 - No. of 1's = 1; 3 - 0011 - No. of 1's = 2; 4 - 0100 - No. of 1's = 1;
5 - 0101 - No. of 1's = 2;

约束:1

所以总数是 7(1+1+2+1+2)。是否有任何其他技巧可以找出这一点? 提前致谢!

【问题讨论】:

  • 是的。您可以在 O(log n) 中计算此值,方法是查看哪些“二进制区域”被完全覆盖。 2^i2^(i+1) 之间的数字集合位数为(2^(i-1))*i+1
  • 总共应该有7。 1+1+2+1+2 = 7.
  • 还有,不包括N本身?
  • 是的,不包括N
  • 找不到你@Willem Van Onsem

标签: algorithm binary language-agnostic computer-science binary-data


【解决方案1】:

令 S(n) 是数字 0 到 n 的集合(没有重复,但顺序不限)。然后S(2n+1) = {2*s for s in S(n)} + {2*s+1 for s in S(n)}S(2n) = {2*s for s in S(n)} + {2*s+1 for s in S(n-1)}

两个例子:

S(7) = {2*s for s in S(3)} + {2*s+1 for s in S(3)}
     = {0, 2, 4, 6} + {1, 3, 5, 7}

S(10) = {2*s for s in S(5)} + {2*s+1 for s in S(4)}
      = {0, 2, 4, 6, 8, 10} + {1, 3, 5, 7, 9}

a(n) 定义为S(n) 中所有数字中设置的总位数,并使用S 的公式,我们有a(2n+1) = 2a(n) + n+1a(2n) = a(n) + a(n-1) + n。这是因为{2*s for s in S(n)}中设置的位数与S(n)中设置的位数相同,{2*s+1 for s in S(n)}中设置的位数是S(n)中设置的位数加一S(n) 的元素(即:n+1)。

同样的方程式出现在https://oeis.org/A000788,归功于 Ralf Stephan:

a(0) = 0
a(2n) = a(n)+a(n-1)+n
a(2n+1) = 2a(n)+n+1

使用它,可以编写一个函数BB(N) = a(N), a(N-1)

def B(N):
    if N == 0:
        return 0, 0
    r, s = B(N//2)
    if N % 2:
        return 2*r+N//2+1, r+s+N//2
    else:
        return r+s+N//2, 2*s+N//2

双精度返回值是动态规划的一种形式,避免多次重新计算相同的值。

第二个返回值就是你感兴趣的那个。例如:

>> print(B(7)[1])
9

>> print(B(28)[1])
64

>> print(B(10**20)[1])
3301678091638143975424

这显然在 O(log N) 算术运算中运行,并使用 O(log N) 堆栈。

获得恒定的空间复杂度

只要稍加小心,就可以将空间复杂度降低到 O(1)。

我们可以将 Ralf Stephan 方程写成矩阵乘以向量的形式:

[ a(2n+1) ] = [2 0 1 1]   [ a(n)  ]
[ a(2n)   ]   [1 1 1 0] * [ a(n-1)]
[ 2n+1    ]   [0 0 2 1]   [ n     ]
[ 1       ]   [0 0 0 1]   [ 1     ]

[ a(2n)   ] = [1 1 1 0]   [ a(n)  ]
[ a(2n-1) ]   [0 2 1 0] * [ a(n-1)]
[ 2n      ]   [0 0 2 0]   [ n     ]
[ 1       ]   [0 0 0 1]   [ 1     ]

重复应用这些规则中的一个或另一个,给出:

[ a(n)  ] = M[0] * M[1] * ... * M[k] *   [ a(0) ]
[ a(n-1)]                                [ a(-1)]
[ n     ]                                [ 0    ]
[ 1     ]                                [ 1    ]

其中M[0]M[1]、...、M[k] 是出现在 Ralf Stephan 方程的矩阵时间向量版本中的两个 4x4 矩阵之一,具体取决于 @ n的第987654347@位。

因此:

def mat_mul(A, B):
    C = [[0] * 4 for _ in range(4)]
    for i in range(4):
        for j in range(4):
            for k in range(4):
                C[i][k] += A[i][j] * B[j][k]
    return C

M1 = [[2, 0, 1, 1], [1, 1, 1, 0], [0, 0, 2, 1], [0, 0, 0, 1]]
M0 = [[1, 1, 1, 0], [0, 2, 1, 0], [0, 0, 2, 0], [0, 0, 0, 1]]

def B2(N):
    M = [[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]
    while N:
        M = mat_mul(M, M1 if N%2 else M0)
        N >>= 1
    return M[1][3]

函数B2 执行 O(log n) 算术运算,但使用常量空间。

我们可以做得更好一点,注意 M 矩阵始终是以下形式:

[ a   b   c   d   ]
[ a-1 b+1 c   e   ]
[ 0   0   a+b a-1 ]
[ 0   0   0   1   ]

然后,B3 根据观察到的M 的结构,以优化的方式执行B2 的矩阵乘法:

def B3(N):
    a, b, c, d, e = 1, 0, 0, 0, 0
    while N:
        if N%2:
            a, c, d, e = 2*a+b, a+b+2*c, a+c+d, a+c+e-1
        else:
            b, c = a+2*b, a+b+2*c
        N >>= 1
    return e

这种方法可以为我们带来最好的结果:唯一的算术运算是加法、乘以 2、除以 2 和测试最低位。空间复杂度是恒定的。即使对于巨大的N(例如,10^200),所花费的时间也可以忽略不计。

C 中的快速版本。

为了速度,C 版本(使用 gcc 对 __int128 的扩展)在我的机器上计算 b3(10**20) 大约需要 140 纳秒。该代码是B3 python 函数的直接转换(注意不需要d),由于C 中缺少多重赋值而略有阻碍。

typedef unsigned __int128 uint128;

uint128 b3(uint128 n) {
    uint128 a=1, b=0, c=0, e=0;
    while (n) {
        if (n&1) {
            e = a+c+e-1;
            c = a+b+2*c;
            a = 2*a+b;
        } else {
            c = a+b+2*c;
            b = a+2*b;
        }
        n >>= 1;
    }
    return e;
}

【讨论】:

    【解决方案2】:

    是的。让我们首先分析 1 和 2 的幂 2k 之间的个数(下界包括在内,上界 * 不包括在内)。后面我们会根据这个方法解决一般问题。

    这意味着最终会为最后 k 位选择所有位组合(000 除外,但这不包含任何设置位)。实际上,对于 k=3,我们看到 001010011100101110111。所以平均而言,设置了一半的位。因此我们知道设置的总位数为:

     k
    2
    ---
    \      k       k-1
    /     ---  = 2     * k
    ---    2
    i=0
    

    所以对于 1(或 0,但这没有区别,因为 0 没有设置位)和 2k,我们有 2k-1×k 个设置位。例如,对于 k=3,我们计算 22×3=12 位,这确实是我们手动枚举时看到的。

    这对我们的一般情况有何帮助?

    假设我们要计算0l之间设置的位数,2kk+1,那么我们可以先统计设置为2k的总位数,然后将其与2kl 之间设置的总位数。

    当然,后者还有一个问题:因为我们不知道如何计算它。但是我们可以执行“移位”:我们可以计算 0l-2k 之间的总位数(我们知道如何这样做),并在该结果中添加额外的 l-2k 。我们以相同的方式计算 0l-2k 之间的总位数,但是我们知道两个的最大幂l-2k 将小于 2k,因为 2k sup>l 中二的最高幂,所以“进步”是有保证的。

    l-2k 添加到结果中如何工作?举个例子:如果我们要计算000110(不包括)之间设置的位数,那么我们必须将000001010、@的位数相加987654335@,这是第一次“迭代”。然后第二次迭代是在100110 之间设置的位,因此我们通过执行移位并计算0010 之间的元素数来做到这一点,但是设置了一个额外的位对于“原始”数字中的每个数字:最高设置位,因此我们计算迭代的元素数量,从而补偿位的丢失。

    算法:我们现在可以为此推导出算法:

    def count_bit_range(n):
        if n <= 1:
            return 0
        k = n.bit_length()-1
        pk = 1 << k
        pk1 = 1 << (k-1)
        return k * pk1 + (n-pk) + count_bit_range(n-pk)
    

    或非递归方法:

    def count_bit_range(n):
        c = 0
        while n > 1:
            k = n.bit_length()-1
            pk = 1 << k
            pk1 = 1 << (k-1)
            c += k * pk1 + n - pk
            n -= pk
        return c
    

    例如:

    >>> count_bit_range(0)
    0
    >>> count_bit_range(1)
    0
    >>> count_bit_range(2)
    1
    >>> count_bit_range(3)
    2
    >>> count_bit_range(4)
    4
    >>> count_bit_range(5)
    5
    >>> count_bit_range(6)
    7
    >>> count_bit_range(12)
    20
    >>> count_bit_range(28)
    64
    

    例如对于 12,我们得到:

          0001  0010  0011  0100  0101  0110  0111
    1000  1001  1010  1011
    

    所以 20 个设置位。

    或 28 岁:

           00001  00010  00011  00100  00101  00110  00111
    01000  01001  01010  01011  01100  01101  01110  01111
    10000  10001  10010  10011  10100  10101  10110  10111
    11000  11001  11010  11011
    

    确实是 64。

    基准测试:如果我们以上限 (1020) 运行算法,我们在本地机器上获得 11.9 微秒:

    >>> timeit(partial(count_bit_range, 10**20), number=1000000)
    11.911393816000782
    

    这(可能)不是范围内最昂贵的数字,但是递归调用的数量与上限的设置位数成比例,因此是范围内最昂贵的数字很可能是(1&lt;&lt;66)-1:

    >>> timeit(partial(count_bit_range, (1<<66)-1), number=1000000)
    32.43066442897543
    

    但是 32.4 微秒看起来仍然可以计算设置在 1 和 73'786'976'294'838'206'463 之间的位数。

    在本地机器上,它会在高达 1020'0000 的非递归方法上给出即时结果。

    时间复杂度:递归调用的数量与上限中设置的位数成比例:实际上每次迭代都会删除最高设置位,并且当上限达到 1 或 0 时算法停止.对于 w 位数,该算法因此需要 O(w) 个递归调用(这 不是 本身的“基本操作数” ")。

    确切的时间复杂度有点难以计算,因为在调用期间,我们对严格来说可以任意大的变量执行大量计算,并且加法、减法等需要非常量的时间任意大数。

    我们可以假设大多数操作将在该数字的位数上线性运行(如.bit_length() 和二进制移位),但乘法需要的时间超过线性时间(在长度上)。尤其是因为 k 的长度与上限的长度成对数比例,所以它是“棘手的”。

    如果我们假设递归步骤在上限的长度中花费二次时间(这很可能被高估了),那么我们得到的时间复杂度为O(w 3),或者对于高达 n 的范围,时间复杂度为 O(log3 n) .

    【讨论】:

    • 我建议使用bit_length 方法而不是int(log2(...)),这对于大的n 会给出错误的答案。
    • @MarkDickinson:谢谢,不知怎的,我忘记了。固定:)
    • @WillemVanOnsem 为什么我们对第一个返回值不感兴趣?因为 0 到 7 中 '1' 的数量是 12 而不是 9。
    • @Crypticsy:注意上限是独占的,就像 Python 的 range(..) 表示法一样,所以 count_bit_range(8) 产生 12
    【解决方案3】:

    为值 0..2^P-1 制作一个表格,其中 P = 8

     byte[] table = new byte[] {0,1,1,2,1,2,1,3, ... 7,8};
    

    和一个长度为P的所有单位的掩码:

     long mask = (1 << P)-1;
    

    然后,将输入的数字拆分为字节,并对每个字节求和:

    int numUnits(long number) {
      int sum=0;
      for (int k=0; k<64/P, k++) {
          sum += table[number & mask];
          num = num >> P;
      }
      return sum;
    }
    

    您可以取 P = 4 或 16 而不是 8,这取决于您可以为表提供多少内存。

    【讨论】:

      猜你喜欢
      • 2011-12-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-14
      • 2010-10-15
      相关资源
      最近更新 更多