具有大整数的牛顿-拉夫森除法答案

【问题标题】：Newton-Raphson Division With Big Integers具有大整数的牛顿-拉夫森除法
【发布时间】：2015-03-04 06:45:33
【问题描述】：

我正在制作一个 BigInt 类作为编程练习。它使用以 65536 为基数的 2 的补码有符号整数向量（这样 32 位乘法就不会溢出。一旦它完全工作，我将增加基数）。

所有基本的数学运算都已编码，但有一个问题：使用我能够创建的基本算法，除法非常痛苦。（它有点像商的每个数字的二进制除法......除非有人想看到它，否则我不会发布它......）

我想使用 Newton-Raphson 来找到（移位的）倒数，然后乘以（和移位），而不是我的慢速算法。我想我对基础知识有所了解：你给公式 (x1 = x0(2 - x0 * divisor)) 一个很好的初始猜测，然后经过一些迭代，x 收敛到互惠的。这部分似乎很容易......但是在尝试将此公式应用于大整数时遇到了一些问题：

问题一：

因为我正在使用整数...嗯...我不能使用分数。这似乎导致 x 总是发散（x0 * 除数必须小于 2 似乎？）。我的直觉告诉我应该对等式进行一些修改，使其能够处理整数（达到一定的准确性），但我真的很难找出它是什么。（我缺乏数学技能在这里打败了我......）我想我需要找到一些等价的等式，而不是 d 有 d*[base^somePower]强>?是否有像 (x1 = x0(2 - x0 * d)) 这样的等式适用于整数？

问题 2：

当我使用牛顿公式来求一些数字的倒数时，结果最终只是低于答案应该是的一小部分......例如。当试图找到 4 的倒数（十进制）时：

x0 = 0.3
x1 = 0.24
x2 = 0.2496
x3 = 0.24999936
x4 = 0.2499999999983616
x5 = 0.24999999999999999999998926258176

如果我以 10 为基数表示数字，我希望得到 25 的结果（并记住将乘积右移 2）。对于一些倒数，例如 1/3，您可以在知道自己有足够的准确性后简单地截断结果。但是如何从上面的结果中提取出正确的倒数呢？

对不起，如果这太模糊了，或者我的要求太多了。我浏览了 Wikipedia 和所有可以在 Google 上找到的研究论文，但我觉得我的头撞到了墙上。我感谢任何人可以给我的任何帮助！

...

编辑：让算法工作，虽然它比我预期的要慢得多。与我的旧算法相比，我实际上损失了很多速度，即使是数千位数的数字......我仍然错过了一些东西。乘法不是问题，它非常快。（我确实在使用 Karatsuba 的算法）。

对于任何感兴趣的人，这里是我当前迭代的 Newton-Raphson 算法：

bigint operator/(const bigint& lhs, const bigint& rhs) {
    if (rhs == 0) throw overflow_error("Divide by zero exception");
    bigint dividend = lhs;
    bigint divisor = rhs;

    bool negative = 0;
    if (dividend < 0) {
        negative = !negative;
        dividend.invert();
    }
    if (divisor < 0) {
        negative = !negative;
        divisor.invert();
    }

    int k = dividend.numBits() + divisor.numBits();
    bigint pow2 = 1;
    pow2 <<= k + 1;

    bigint x = dividend - divisor;
    bigint lastx = 0;
    bigint lastlastx = 0;
    while (1) {
        x = (x * (pow2 - x * divisor)) >> k;
        if (x == lastx || x == lastlastx) break;
        lastlastx = lastx;
        lastx = x;
    }
    bigint quotient = dividend * x >> k;
    if (dividend - (quotient * divisor) >= divisor) quotient++;
    if (negative)quotient.invert();
    return quotient;
}

这是我的（非常丑陋的）旧算法，速度更快：

bigint operator/(const bigint& lhs, const bigint & rhs) {
    if (rhs == 0) throw overflow_error("Divide by zero exception");
    bigint dividend = lhs;
    bigint divisor = rhs;

    bool negative = 0;
    if (dividend < 0) {
        negative = !negative;
        dividend.invert();
    }
    if (divisor < 0) {
        negative = !negative;
        divisor.invert();
    }

    bigint remainder = 0;
    bigint quotient = 0;
    while (dividend.value.size() > 0) {
        remainder.value.insert(remainder.value.begin(), dividend.value.at(dividend.value.size() - 1));
        remainder.value.push_back(0);
        remainder.unPad();
        dividend.value.pop_back();

        if (divisor > remainder) {
            quotient.value.push_back(0);
        } else {
            int count = 0;
            int i = MSB;
            bigint value = 0;
            while (i > 0) {
                bigint increase = divisor * i;
                bigint next = value + increase;
                if (next <= remainder) {
                    value = next;
                    count += i;
                }
                i >>= 1;
            }
            quotient.value.push_back(count);
            remainder -= value;
        }
    }

    for (int i = 0; i < quotient.value.size() / 2; i++) {
        int swap = quotient.value.at(i);
        quotient.value.at(i) = quotient.value.at((quotient.value.size() - 1) - i);
        quotient.value.at(quotient.value.size() - 1 - i) = swap;
    }

    if (negative)quotient.invert();
    quotient.unPad();
    return quotient;
}

【问题讨论】：

your solution returns 1 instead of 2 for 2/1¶ 你认为你找到了解决方案，你可以post it as your own answer （答案应该作为答案发布，而不是问题更新）。
这是working (in my tests) unsigned_div_newton() implementation in Python (text in Russian)。对于我尝试过的情况，基于长除法 (unsigned_div_long()) 的实现要快得多。

标签： c++ algorithm integer division bigint

【解决方案1】：

Newton-Raphson 是一种近似算法 - 不适用于整数数学。您将得到舍入错误，这将导致您所看到的问题。你可以用浮点数解决问题，然后看看你是否得到一个整数，精确到指定的位数（见下一段）

至于第二个问题，选择您想要的精度（小数位数）并四舍五入到该精度。如果您在问题中选择了 20 位精度，您将四舍五入为 0.25。您只需要迭代直到您所需的精度数字稳定。一般来说，在计算机上表示无理数通常会带来不精确性。

【讨论】：

Newton-Raphson 可以调整为在离散、精确的计算中非常有用。有关详细信息的详细讨论，请参阅 Gathen, Gerhard, Modern Computer Algebra, Third Edition, Chapter 9 : Newton Iteration。

【解决方案2】：

首先，您可以在时间O(n^2) 和合理的常数下实现除法，因此它不会（很多）比天真的乘法慢。但是，如果您使用类似Karatsuba 的算法，甚至是基于FFT 的乘法算法，那么您确实可以使用Newton-Raphson 加速除法算法。

计算 x 倒数的 Newton-Raphson 迭代是 q[n+1]=q[n]*(2-q[n]*x)。

假设我们要计算floor(2^k/B)，其中B 是一个正整数。 WLOG，B≤2^k；否则，商为0。 x=B/2^k 的 Newton-Raphson 迭代产生 q[n+1]=q[n]*(2-q[n]*B/2^k)。我们可以将其重新排列为

q[n+1]=q[n]*(2^(k+1)-q[n]*B) >> k

这种类型的每次迭代只需要整数乘法和位移。它是否收敛到floor(2^k/B)？不必要。然而，在最坏的情况下，它最终会在 floor(2^k/B) 和 ceiling(2^k/B) 之间交替（证明它！）。所以你可以使用一些不太聪明的测试来看看你是否属于这种情况，然后提取floor(2^k/B)。（这个“不太聪明的测试”应该比每次迭代中的乘法快很多；但是，优化这个东西会很好）。

确实，计算floor(2^k/B) 就足以计算任何正整数A,B 的floor(A/B)。取k 这样A*B≤2^k，并验证floor(A/B)=A*ceiling(2^k/B) >> k。

最后，此方法的一个简单但重要的优化是在 Newton-Raphson 方法的早期迭代中截断乘法（即仅计算乘积的较高位）。这样做的原因是，早期迭代的结果与商相差甚远，执行不准确也没关系。（细化这个论点，表明如果你做这件事得当，你可以将两个≤n-bit 整数在时间O(M(2n)) 相除，假设你可以将两个≤k-bit 整数在时间M(k) 和@987654347 相乘@ 是一个递增的凸函数）。

【讨论】：

感谢您的回复。它帮助我创建了一个工作 N-R 除法算法。不幸的是，在所有这些麻烦之后，我的旧算法仍然（快得多）！我很有可能在最初的猜测中没有使用一个好的数字。此外，您所说的截断优化可能对效率至关重要。我还在研究如何使用它。否则，如果不出意外，我确实认为我从中得到了一些实用的东西：我应该能够使用这个算法来加速我的 toDecimalString() 函数，它使用重复的除法。我会用我的代码更新我的问题。

【解决方案3】：

如果我没看错的话，一个主要的改进是为 x 选择一个好的起始值。知道除数有多少位，你就知道逆的最高位必须在哪里，因为

1/x = pow(2,log2(1/x))
1/x = pow(2,-log2(x))
1/x >= pow(2,-floor(log2(x)))

floor(log2(x)) 就是最高有效位集的索引。

正如操作员在评论中所建议的那样，使用 256 位查找表会进一步加快收敛速度，因为每一步都会使正确数字的数量大致翻倍。从 8 个正确的数字开始比从 1 开始要好，比从更少的数字开始要好得多。

这似乎工作得很好，我忠实地推导出它，然后它几乎工作了，但在我将x*(T(0)-x*d) 更改为(x+1)*(T(0)-x*d) 之前，它并没有在所有情况下产生正确的结果...

  constexpr fixpoint_integer_inverse(const T& d) {
    uint8_t lut[256] = { 255u,254u,253u,252u,251u,250u,249u,248u,247u,246u,245u,244u,243u,242u,241u,
240u,240u,239u,238u,237u,236u,235u,234u,234u,233u,232u,231u,230u,229u,229u,228u,
227u,226u,225u,225u,224u,223u,222u,222u,221u,220u,219u,219u,218u,217u,217u,216u,
215u,214u,214u,213u,212u,212u,211u,210u,210u,209u,208u,208u,207u,206u,206u,205u,
204u,204u,203u,202u,202u,201u,201u,200u,199u,199u,198u,197u,197u,196u,196u,195u,
195u,194u,193u,193u,192u,192u,191u,191u,190u,189u,189u,188u,188u,187u,187u,186u,
186u,185u,185u,184u,184u,183u,183u,182u,182u,181u,181u,180u,180u,179u,179u,178u,
178u,177u,177u,176u,176u,175u,175u,174u,174u,173u,173u,172u,172u,172u,171u,171u,
170u,170u,169u,169u,168u,168u,168u,167u,167u,166u,166u,165u,165u,165u,164u,164u,
163u,163u,163u,162u,162u,161u,161u,161u,160u,160u,159u,159u,159u,158u,158u,157u,
157u,157u,156u,156u,156u,155u,155u,154u,154u,154u,153u,153u,153u,152u,152u,152u,
151u,151u,151u,150u,150u,149u,149u,149u,148u,148u,148u,147u,147u,147u,146u,146u,
146u,145u,145u,145u,144u,144u,144u,144u,143u,143u,143u,142u,142u,142u,141u,141u,
141u,140u,140u,140u,140u,139u,139u,139u,138u,138u,138u,137u,137u,137u,137u,136u,
136u,136u,135u,135u,135u,135u,134u,134u,134u,134u,133u,133u,133u,132u,132u,132u,
132u,131u,131u,131u,131u,130u,130u,130u,130u,129u,129u,129u,129u,128u,128u,128u,
127u
    };
    const auto l = log2(d);
    T x;
    if (l<8) {
      x = T(1)<<(digits(d)-1-l);
    } else {
      if (digits(d)>(l+8)) x = T(lut[(d>>(l-8))-256])<<(digits(d)-l-8);
      else x = T(lut[(d>>(l-8))-256])>>(l+8-digits(d));
    }
    if (x==0) x=1;
    while(true) {
      const auto lm = long_mul(x+1,T(0)-x*d);
      const T i = get<0>(lm);
      if (i) x+=i;
      else return x;
    }
    return x;
  }

  // calculate a * b = r0r1
  template<typename T>
  typename std::enable_if<std::is_unsigned<T>::value,tuple<T,T>>::type
  constexpr long_mul(const T& a, const T& b){
    const T N  = digits<T>()/2;
    const T t0 = (a>>N)*(b>>N);
    const T t1 = ((a<<N)>>N)*(b>>N);
    const T t2 = (a>>N)*((b<<N)>>N);
    const T t3 = ((a<<N)>>N)*((b<<N)>>N);
    const T t4 = t3+(t1<<N);
    const T r1 = t4+(t2<<N);
    const T r0 = (r1<t4)+(t4<t3)+(t1>>N)+(t2>>N)+t0;
    return {r0,r1};
  }

【讨论】：

答案来得太晚了，但 Lykos 抓住了它：起点。 Newton-Raphson 将每一步的精度加倍，但如果您的起点不好，您将花费很长时间才能达到合理的精度。假设您想计算 1/3，而您的第一个猜测是 0.5。 NR 序列将是 0.5, 0.25, 0.3125, 0.33203125, 0.3333282470703125, 0.33333333325572312, 0.3333333333333333 但是如果你有一个 256 元素的查找表，你会在 03125 迭代时得到前 83 位；你只需要 3 次迭代而不是 6 次。