令 S(n) 是数字 0 到 n 的集合(没有重复,但顺序不限)。然后S(2n+1) = {2*s for s in S(n)} + {2*s+1 for s in S(n)} 和S(2n) = {2*s for s in S(n)} + {2*s+1 for s in S(n-1)}。
两个例子:
S(7) = {2*s for s in S(3)} + {2*s+1 for s in S(3)}
= {0, 2, 4, 6} + {1, 3, 5, 7}
S(10) = {2*s for s in S(5)} + {2*s+1 for s in S(4)}
= {0, 2, 4, 6, 8, 10} + {1, 3, 5, 7, 9}
让a(n) 定义为S(n) 中所有数字中设置的总位数,并使用S 的公式,我们有a(2n+1) = 2a(n) + n+1 和a(2n) = a(n) + a(n-1) + n。这是因为{2*s for s in S(n)}中设置的位数与S(n)中设置的位数相同,{2*s+1 for s in S(n)}中设置的位数是S(n)中设置的位数加一S(n) 的元素(即:n+1)。
同样的方程式出现在https://oeis.org/A000788,归功于 Ralf Stephan:
a(0) = 0
a(2n) = a(n)+a(n-1)+n
a(2n+1) = 2a(n)+n+1
使用它,可以编写一个函数B 和B(N) = a(N), a(N-1):
def B(N):
if N == 0:
return 0, 0
r, s = B(N//2)
if N % 2:
return 2*r+N//2+1, r+s+N//2
else:
return r+s+N//2, 2*s+N//2
双精度返回值是动态规划的一种形式,避免多次重新计算相同的值。
第二个返回值就是你感兴趣的那个。例如:
>> print(B(7)[1])
9
>> print(B(28)[1])
64
>> print(B(10**20)[1])
3301678091638143975424
这显然在 O(log N) 算术运算中运行,并使用 O(log N) 堆栈。
获得恒定的空间复杂度
只要稍加小心,就可以将空间复杂度降低到 O(1)。
我们可以将 Ralf Stephan 方程写成矩阵乘以向量的形式:
[ a(2n+1) ] = [2 0 1 1] [ a(n) ]
[ a(2n) ] [1 1 1 0] * [ a(n-1)]
[ 2n+1 ] [0 0 2 1] [ n ]
[ 1 ] [0 0 0 1] [ 1 ]
和
[ a(2n) ] = [1 1 1 0] [ a(n) ]
[ a(2n-1) ] [0 2 1 0] * [ a(n-1)]
[ 2n ] [0 0 2 0] [ n ]
[ 1 ] [0 0 0 1] [ 1 ]
重复应用这些规则中的一个或另一个,给出:
[ a(n) ] = M[0] * M[1] * ... * M[k] * [ a(0) ]
[ a(n-1)] [ a(-1)]
[ n ] [ 0 ]
[ 1 ] [ 1 ]
其中M[0]、M[1]、...、M[k] 是出现在 Ralf Stephan 方程的矩阵时间向量版本中的两个 4x4 矩阵之一,具体取决于 @ n的第987654347@位。
因此:
def mat_mul(A, B):
C = [[0] * 4 for _ in range(4)]
for i in range(4):
for j in range(4):
for k in range(4):
C[i][k] += A[i][j] * B[j][k]
return C
M1 = [[2, 0, 1, 1], [1, 1, 1, 0], [0, 0, 2, 1], [0, 0, 0, 1]]
M0 = [[1, 1, 1, 0], [0, 2, 1, 0], [0, 0, 2, 0], [0, 0, 0, 1]]
def B2(N):
M = [[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]
while N:
M = mat_mul(M, M1 if N%2 else M0)
N >>= 1
return M[1][3]
函数B2 执行 O(log n) 算术运算,但使用常量空间。
我们可以做得更好一点,注意 M 矩阵始终是以下形式:
[ a b c d ]
[ a-1 b+1 c e ]
[ 0 0 a+b a-1 ]
[ 0 0 0 1 ]
然后,B3 根据观察到的M 的结构,以优化的方式执行B2 的矩阵乘法:
def B3(N):
a, b, c, d, e = 1, 0, 0, 0, 0
while N:
if N%2:
a, c, d, e = 2*a+b, a+b+2*c, a+c+d, a+c+e-1
else:
b, c = a+2*b, a+b+2*c
N >>= 1
return e
这种方法可以为我们带来最好的结果:唯一的算术运算是加法、乘以 2、除以 2 和测试最低位。空间复杂度是恒定的。即使对于巨大的N(例如,10^200),所花费的时间也可以忽略不计。
C 中的快速版本。
为了速度,C 版本(使用 gcc 对 __int128 的扩展)在我的机器上计算 b3(10**20) 大约需要 140 纳秒。该代码是B3 python 函数的直接转换(注意不需要d),由于C 中缺少多重赋值而略有阻碍。
typedef unsigned __int128 uint128;
uint128 b3(uint128 n) {
uint128 a=1, b=0, c=0, e=0;
while (n) {
if (n&1) {
e = a+c+e-1;
c = a+b+2*c;
a = 2*a+b;
} else {
c = a+b+2*c;
b = a+2*b;
}
n >>= 1;
}
return e;
}