在正数范围内找出二进制表示中 1 的数量的算法答案

【问题标题】：Algorithm to find out the number of 1's in the binary representation over a range of positive numbers在正数范围内找出二进制表示中 1 的数量的算法
【发布时间】：2019-06-01 06:37:30
【问题描述】：

我刚刚遇到一个问题，我们应该计算大范围内数字的二进制表示中 1 的数量。是否有任何算法或技术可以轻松找到它？例如，对于输入 N = 6，其前面数字的二进制表示中 1 的数量。喜欢， 1 - 0001 - No. of 1's = 1; 2 - 0010 - No. of 1's = 1; 3 - 0011 - No. of 1's = 2; 4 - 0100 - No. of 1's = 1;
5 - 0101 - No. of 1's = 2;

约束：1

所以总数是 7(1+1+2+1+2)。是否有任何其他技巧可以找出这一点？提前致谢！

【问题讨论】：

是的。您可以在 O(log n) 中计算此值，方法是查看哪些“二进制区域”被完全覆盖。 2^i 和2^(i+1) 之间的数字集合位数为(2^(i-1))*i+1。
总共应该有7。 1+1+2+1+2 = 7.
还有，不包括N本身？
是的，不包括N
找不到你@Willem Van Onsem

标签： algorithm binary language-agnostic computer-science binary-data

【解决方案1】：

令 S(n) 是数字 0 到 n 的集合（没有重复，但顺序不限）。然后S(2n+1) = {2*s for s in S(n)} + {2*s+1 for s in S(n)} 和S(2n) = {2*s for s in S(n)} + {2*s+1 for s in S(n-1)}。

两个例子：

S(7) = {2*s for s in S(3)} + {2*s+1 for s in S(3)}
     = {0, 2, 4, 6} + {1, 3, 5, 7}

S(10) = {2*s for s in S(5)} + {2*s+1 for s in S(4)}
      = {0, 2, 4, 6, 8, 10} + {1, 3, 5, 7, 9}

让a(n) 定义为S(n) 中所有数字中设置的总位数，并使用S 的公式，我们有a(2n+1) = 2a(n) + n+1 和a(2n) = a(n) + a(n-1) + n。这是因为{2*s for s in S(n)}中设置的位数与S(n)中设置的位数相同，{2*s+1 for s in S(n)}中设置的位数是S(n)中设置的位数加一S(n) 的元素（即：n+1）。

同样的方程式出现在https://oeis.org/A000788，归功于 Ralf Stephan：

a(0) = 0
a(2n) = a(n)+a(n-1)+n
a(2n+1) = 2a(n)+n+1

使用它，可以编写一个函数B 和B(N) = a(N), a(N-1)：

def B(N):
    if N == 0:
        return 0, 0
    r, s = B(N//2)
    if N % 2:
        return 2*r+N//2+1, r+s+N//2
    else:
        return r+s+N//2, 2*s+N//2

双精度返回值是动态规划的一种形式，避免多次重新计算相同的值。

第二个返回值就是你感兴趣的那个。例如：

>> print(B(7)[1])
9

>> print(B(28)[1])
64

>> print(B(10**20)[1])
3301678091638143975424

这显然在 O(log N) 算术运算中运行，并使用 O(log N) 堆栈。

获得恒定的空间复杂度

只要稍加小心，就可以将空间复杂度降低到 O(1)。

我们可以将 Ralf Stephan 方程写成矩阵乘以向量的形式：

[ a(2n+1) ] = [2 0 1 1]   [ a(n)  ]
[ a(2n)   ]   [1 1 1 0] * [ a(n-1)]
[ 2n+1    ]   [0 0 2 1]   [ n     ]
[ 1       ]   [0 0 0 1]   [ 1     ]

和

[ a(2n)   ] = [1 1 1 0]   [ a(n)  ]
[ a(2n-1) ]   [0 2 1 0] * [ a(n-1)]
[ 2n      ]   [0 0 2 0]   [ n     ]
[ 1       ]   [0 0 0 1]   [ 1     ]

重复应用这些规则中的一个或另一个，给出：

[ a(n)  ] = M[0] * M[1] * ... * M[k] *   [ a(0) ]
[ a(n-1)]                                [ a(-1)]
[ n     ]                                [ 0    ]
[ 1     ]                                [ 1    ]

其中M[0]、M[1]、...、M[k] 是出现在 Ralf Stephan 方程的矩阵时间向量版本中的两个 4x4 矩阵之一，具体取决于 @ n的第987654347@位。

因此：

def mat_mul(A, B):
    C = [[0] * 4 for _ in range(4)]
    for i in range(4):
        for j in range(4):
            for k in range(4):
                C[i][k] += A[i][j] * B[j][k]
    return C

M1 = [[2, 0, 1, 1], [1, 1, 1, 0], [0, 0, 2, 1], [0, 0, 0, 1]]
M0 = [[1, 1, 1, 0], [0, 2, 1, 0], [0, 0, 2, 0], [0, 0, 0, 1]]

def B2(N):
    M = [[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]
    while N:
        M = mat_mul(M, M1 if N%2 else M0)
        N >>= 1
    return M[1][3]

函数B2 执行 O(log n) 算术运算，但使用常量空间。

我们可以做得更好一点，注意 M 矩阵始终是以下形式：

[ a   b   c   d   ]
[ a-1 b+1 c   e   ]
[ 0   0   a+b a-1 ]
[ 0   0   0   1   ]

然后，B3 根据观察到的M 的结构，以优化的方式执行B2 的矩阵乘法：

def B3(N):
    a, b, c, d, e = 1, 0, 0, 0, 0
    while N:
        if N%2:
            a, c, d, e = 2*a+b, a+b+2*c, a+c+d, a+c+e-1
        else:
            b, c = a+2*b, a+b+2*c
        N >>= 1
    return e

这种方法可以为我们带来最好的结果：唯一的算术运算是加法、乘以 2、除以 2 和测试最低位。空间复杂度是恒定的。即使对于巨大的N（例如，10^200），所花费的时间也可以忽略不计。

C 中的快速版本。

为了速度，C 版本（使用 gcc 对 __int128 的扩展）在我的机器上计算 b3(10**20) 大约需要 140 纳秒。该代码是B3 python 函数的直接转换（注意不需要d），由于C 中缺少多重赋值而略有阻碍。

typedef unsigned __int128 uint128;

uint128 b3(uint128 n) {
    uint128 a=1, b=0, c=0, e=0;
    while (n) {
        if (n&1) {
            e = a+c+e-1;
            c = a+b+2*c;
            a = 2*a+b;
        } else {
            c = a+b+2*c;
            b = a+2*b;
        }
        n >>= 1;
    }
    return e;
}

【讨论】：

【解决方案2】：

是的。让我们首先分析 1 和 2 的幂 2^k 之间的个数（下界包括在内，上界 * 不包括在内）。后面我们会根据这个方法解决一般问题。

这意味着最终会为最后 k 位选择所有位组合（000 除外，但这不包含任何设置位）。实际上，对于 k=3，我们看到 001、010、011、100、101、110 和 111。所以平均而言，设置了一半的位。因此我们知道设置的总位数为：

 k
2
---
\      k       k-1
/     ---  = 2     * k
---    2
i=0

所以对于 1（或 0，但这没有区别，因为 0 没有设置位）和 2^k，我们有 2^k-1×k 个设置位。例如，对于 k=3，我们计算 2²×3=12 位，这确实是我们手动枚举时看到的。

这对我们的一般情况有何帮助？

假设我们要计算0和l之间设置的位数，2^kk+1，那么我们可以先统计设置为2^k的总位数，然后将其与2^k 和 l 之间设置的总位数。

当然，后者还有一个问题：因为我们不知道如何计算它。但是我们可以执行“移位”：我们可以计算 0 和 l-2^k 之间的总位数（我们知道如何这样做），并在该结果中添加额外的 l-2^k 。我们以相同的方式计算 0 和 l-2^k 之间的总位数，但是我们知道两个的最大幂l-2^k 将小于 2^k，因为 2^{k sup>} 是 l 中二的最高幂，所以“进步”是有保证的。

将 l-2^k 添加到结果中如何工作？举个例子：如果我们要计算000和110（不包括）之间设置的位数，那么我们必须将000、001、010、@的位数相加987654335@，这是第一次“迭代”。然后第二次迭代是在100 和110 之间设置的位，因此我们通过执行移位并计算00 和10 之间的元素数来做到这一点，但是设置了一个额外的位对于“原始”数字中的每个数字：最高设置位，因此我们计算迭代的元素数量，从而补偿位的丢失。

算法：我们现在可以为此推导出算法：

def count_bit_range(n):
    if n <= 1:
        return 0
    k = n.bit_length()-1
    pk = 1 << k
    pk1 = 1 << (k-1)
    return k * pk1 + (n-pk) + count_bit_range(n-pk)

或非递归方法：

def count_bit_range(n):
    c = 0
    while n > 1:
        k = n.bit_length()-1
        pk = 1 << k
        pk1 = 1 << (k-1)
        c += k * pk1 + n - pk
        n -= pk
    return c

例如：

>>> count_bit_range(0)
0
>>> count_bit_range(1)
0
>>> count_bit_range(2)
1
>>> count_bit_range(3)
2
>>> count_bit_range(4)
4
>>> count_bit_range(5)
5
>>> count_bit_range(6)
7
>>> count_bit_range(12)
20
>>> count_bit_range(28)
64

例如对于 12，我们得到：

      0001  0010  0011  0100  0101  0110  0111
1000  1001  1010  1011

所以 20 个设置位。

或 28 岁：

       00001  00010  00011  00100  00101  00110  00111
01000  01001  01010  01011  01100  01101  01110  01111
10000  10001  10010  10011  10100  10101  10110  10111
11000  11001  11010  11011

确实是 64。

基准测试：如果我们以上限 (10²⁰) 运行算法，我们在本地机器上获得 11.9 微秒：

>>> timeit(partial(count_bit_range, 10**20), number=1000000)
11.911393816000782

这（可能）不是范围内最昂贵的数字，但是递归调用的数量与上限的设置位数成比例，因此是范围内最昂贵的数字很可能是(1<<66)-1:

>>> timeit(partial(count_bit_range, (1<<66)-1), number=1000000)
32.43066442897543

但是 32.4 微秒看起来仍然可以计算设置在 1 和 73'786'976'294'838'206'463 之间的位数。

在本地机器上，它会在高达 10^20'0000 的非递归方法上给出即时结果。

时间复杂度：递归调用的数量与上限中设置的位数成比例：实际上每次迭代都会删除最高设置位，并且当上限达到 1 或 0 时算法停止.对于 w 位数，该算法因此需要 O(w) 个递归调用（这不是本身的“基本操作数” ")。

确切的时间复杂度有点难以计算，因为在调用期间，我们对严格来说可以任意大的变量执行大量计算，并且加法、减法等需要非常量的时间任意大数。

我们可以假设大多数操作将在该数字的位数上线性运行（如.bit_length() 和二进制移位），但乘法需要的时间超过线性时间（在长度上）。尤其是因为 k 的长度与上限的长度成对数比例，所以它是“棘手的”。

如果我们假设递归步骤在上限的长度中花费二次时间（这很可能被高估了），那么我们得到的时间复杂度为O(w³)，或者对于高达 n 的范围，时间复杂度为 O(log³ n) .

【讨论】：

我建议使用bit_length 方法而不是int(log2(...))，这对于大的n 会给出错误的答案。
@MarkDickinson：谢谢，不知怎的，我忘记了。固定:)
@WillemVanOnsem 为什么我们对第一个返回值不感兴趣？因为 0 到 7 中 '1' 的数量是 12 而不是 9。
@Crypticsy：注意上限是独占的，就像 Python 的 range(..) 表示法一样，所以 count_bit_range(8) 产生 12。

【解决方案3】：

为值 0..2^P-1 制作一个表格，其中 P = 8

 byte[] table = new byte[] {0,1,1,2,1,2,1,3, ... 7,8};

和一个长度为P的所有单位的掩码：

 long mask = (1 << P)-1;

然后，将输入的数字拆分为字节，并对每个字节求和：

int numUnits(long number) {
  int sum=0;
  for (int k=0; k<64/P, k++) {
      sum += table[number & mask];
      num = num >> P;
  }
  return sum;
}

您可以取 P = 4 或 16 而不是 8，这取决于您可以为表提供多少内存。

【讨论】：