【问题标题】:Quicksort linear time?快速排序线性时间?
【发布时间】:2021-06-14 01:01:34
【问题描述】:

我在做一个快速排序(qsort from c++ STL)算法的分析,代码是:

#include <iostream>
#include <fstream>
#include <ctime>
#include <bits/stdc++.h>
#include <cstdlib>
#include <iomanip>

#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100

using namespace std;

int* random_array(int size) {
    int* array = new int[size];

    for (int c = 0; c < size; c++) {
        array[c] = rand()*rand() % 1000000;
    }

    return array;
}

int compare(const void* a, const void* b) { 
    return (*(int*)a - *(int*)b); 
}

int main()
{
    ofstream fout;
    fout.open("data.csv");
    fout << "array size,";
    srand(time(NULL));
    int size;
    int counter = 1;

    std::clock_t start;
    double duration;

    for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) {
        fout << size << ",";
    }
    fout << "\n";

    for (counter = 1; counter <= MAX_RUNS; counter++) {
        fout << "run " << counter << ",";
        for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) {
            try {
                int* arr = random_array(size);

                start = std::clock();
                qsort(arr, size, sizeof(int), compare);
                duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;

                //cout << "size: " << size << " duration: " << duration << '\n';
                fout << setprecision(15) << duration << ",";

                delete[] arr;
            }
            catch (bad_alloc) {
                cout << "bad alloc caught, size: " << size << "\n";
                fout << "bad alloc,";
            }

        }
        fout << "\n";
        cout << counter << "% done\n";
    }
    
    fout.close();
    return 0;
}

当我运行它时,数据完全呈线性返回:

到底发生了什么?快速排序不是 O(nlogn) 吗?

以下是使用的数组大小以及所有 100 次运行的每个大小的平均时间(以秒为单位):

arraysize,256000,512000,1024000,2048000,4096000,8192000,16384000,32768000,65536000,131072000,262144000,524288000
average,0.034,0.066,0.132,0.266,0.534,1.048,2.047,4.023,7.951,15.833,31.442

【问题讨论】:

  • 我感觉rand() * rand() 到处都是。
  • 请注意rand()*rand() 很容易导致有符号整数溢出的未定义行为。
  • 您的比较功能看起来也坏了。你为什么用return (*(int*)a - *(int*)b); 而不是return (*(int*)a &lt; *(int*)b);
  • 感谢大家的帮助!在我的机器上,rand_max 只有 31000 左右,所以 rand()*rand() 不应该溢出。对于比较功能,我取自cplusplus.com/reference/cstdlib/qsort。它只是一个学校项目,我认为 qsort 会更容易分析。再次感谢大家!
  • @NathanOliver 实际上,qsort 的比较功能应该按照 OP 的方式工作。是的,有点奇怪,但来自 C 的保留

标签: c++ performance quicksort qsort


【解决方案1】:

平均而言,确实是 O(N log N)

只是 f(N) = N log(N) 的图看起来非常线性。

绘制图表并亲自查看,或参考以下内容。这个平均时间是算法如此聪明的原因:

【讨论】:

  • 值得注意的是,在 OP 的图中,它基本上从 x=5m 变为 x=30m。还有lg2(5m)=22.25lg2(30m)=24.8,所以该图看起来非常类似于线性方程y=23.5x
  • 是的。并感谢您的编辑;-)。对我来说关键是 df / dN 是 1 + log N。换句话说,梯度实际上是恒定的。
  • 如果您使用更大范围的最大 X,然后将蓝线设为 y=10X 而不是 y=x,您的示例图可能会更明显。
  • 实际上,时间几乎是线性的,而不是 NLogN,因为从 [0:1,000,000) 中有限数量的随机整数中重复聚类。
  • @doug:我们必须同意不同意。不介意采样。事实仍然是,我认为大多数人都没有意识到 N log(N) 情节有多直——而是他们希望它是 N 和 N ** 2 之间的 1/2。
【解决方案2】:

斜率看起来呈线性的部分原因是 Log(N) 的缓慢变化,但主要原因是填充数组的随机数限制为 [0-1,000,000)。这会导致大型数组大部分被重复填充,并且随着 qsort 算法下降到更小的组,排序变得更快。当数组大小从 10,000,000 增加到 20,000,000 时,重复次数平均会翻倍,因此排序轨迹几乎完全是线性的。

从下图中可以看出:

橙色和灰色线是无约束和约束数组的执行时间。黄线和蓝线从 0 到两次运行的终点是线性的。一次运行将整数从原始代码限制为 [0-1000000)。另一个不受 2^31 个正整数的限制。请注意无约束排序需要多长时间,因为对不断增加的重复组的排序非常快。

这是显示不受约束的执行时间具有明显曲线的代码修改,正如人们对 NLogN 所期望的那样。

#include <iostream>
#include <fstream>
#include <ctime>
#include <cstdlib>
#include <iomanip>

#define MIN_ARRAY 256000
#define MAX_ARRAY 1000000000
#define MAX_RUNS 100

using namespace std;

int* random_array(int size) {
    int* array = new int[size];

    for (int c = 0; c < size; c++) {
        // array[c] = rand() * rand() % 1000000;
            // Note that as the array size grows beyond 1000000
            // this will produce increasing numbers of duplicates
            // which will shorten the time when the subsets get small
    
        array[c] = (rand() << 16) | (rand() << 1) | (rand() & 1);
            // Note that in this example/system, RAND_MAX==0x7fff
            // get a random positive int distributed in the set of positive, 32 bit ints
    }

    return array;
}

int compare(const void* a, const void* b) {
    return (*(int*)a - *(int*)b);
}

int main()
{
    auto x = RAND_MAX;
    ofstream fout;
    fout.open("data.csv");
    fout << "array size,";
    srand(time(NULL));
    int size;
    int counter = 1;

    std::clock_t start;
    double duration;

    for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) {
        fout << size << ",";
    }
    fout << "\n";

    for (counter = 1; counter <= MAX_RUNS; counter++) {
        fout << "run " << counter << ",";
        for (size = MIN_ARRAY; size < MAX_ARRAY; size *= 2) {
            try {
                int* arr = random_array(size);

                start = std::clock();
                qsort(arr, size, sizeof(int), compare);
                duration = (std::clock() - start) / (double)CLOCKS_PER_SEC;

                cout << "size: " << size << " duration: " << duration << '\n';
                fout << setprecision(15) << duration << ",";

                delete[] arr;
            }
            catch (bad_alloc) {
                cout << "bad alloc caught, size: " << size << "\n";
                fout << "bad alloc,";
            }

        }
        fout << "\n";
        cout << counter << "% done\n";
    }

    fout.close();
    return 0;
}

【讨论】:

  • 这是一个很好的分析。有一个“你迟到了,但这是更好的答案”投票。
猜你喜欢
  • 2014-08-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-11-01
  • 2022-01-05
  • 2012-07-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多